回归算法

回归方法是对数值型连续随机变量进行预测和建模的监督学习算法。其特点是标注的数据集具有数值型的目标变量。回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式,该公式就是所谓的回归方程(regression equation)。求回归方程中的回归系数的过程就是回归。

常用的回归方法包括:

  • 线性回归:使用超平面拟合数据集

  • 最近邻算法:通过搜寻最相似的训练样本来预测新样本的值

  • 决策树和回归树:将数据集分割为不同分支而实现分层学习

  • 集成方法:组合多个弱学习算法构造一种强学习算法,如随机森林(RF)和梯度提升树(GBM)等

  • 深度学习:使用多层神经网络学习复杂模型

如何应用

  • 收集数据:可以使用任何方法。

  • 准备数据:回归需要数值型数据,标称型数据将被转换成二值型数据。

  • 分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比。

  • 训练算法:找到回归系数。

  • 测试算法:使用 R2 或者预测值和数据的拟合度,来分析模型的效果。

  • 使用算法:使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。

优缺点

  • 优点:结果容易理解,计算上不复杂。

  • 缺点:对非线性的数据拟合不好。

  • 适用数据范围:数值型和标称型。

原文:https://github.com/KeKe-Li/tutorial