来自 小说 2020-03-30 17:32 的文章

DC算法比赛——北京PM2.5浓度回归剖析

  比赛结果(118/1150)

  在这里拔出图片刻画

  1、项目起源:https://www.dcjingsai.com/static_page/cmpList.html

  2、给定命据字段以下:

  在这里拔出图片刻画

  3、应用方法:回归算法

  4、目标:猜测北京pm2.5值,使平均猜测误差越小越好。

  数据完整,没有异常或许缺掉值。

  X=data[,c(-1,-3,-13)] Y=data$pm2.5

  在这里拔出图片刻画

  Y值整体为偏态散布,对Y值取对数。log0为异常值,用0填充。

  logY与X的相干性展现,以下:

  在这里拔出图片刻画

  在这里拔出图片刻画

  个中DEWP、TEMP、PRES间显示有较高相干性(待处理)。

  回归建模:

  在这里拔出图片刻画

  共线性考验:

  在这里拔出图片刻画

  fit经过P考验且共线性较弱,模型可以应用。(DEWP、TEMP、PRES后果尚待优化)

  在这里拔出图片刻画

  过程当中能够存在还没有思考到的要素,和可以应用的优化方法,欢迎指导。