回归算法简介
回归算法
回归方法是对数值型连续随机变量进行预测和建模的监督学习算法。其特点是标注的数据集具有数值型的目标变量。回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式,该公式就是所谓的回归方程(regression equation)。求回归方程中的回归系数的过程就是回归。
常用的回归方法包括:
线性回归:使用超平面拟合数据集
最近邻算法:通过搜寻最相似的训练样本来预测新样本的值
决策树和回归树:将数据集分割为不同分支而实现分层学习
集成方法:组合多个弱学习算法构造一种强学习算法,如随机森林(RF)和梯度提升树(GBM)等
深度学习:使用多层神经网络学习复杂模型
如何应用
收集数据:可以使用任何方法。
准备数据:回归需要数值型数据,标称型数据将被转换成二值型数据。
分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比。
训练算法:找到回归系数。
测试算法:使用 R2 或者预测值和数据的拟合度,来分析模型的效果。
使用算法:使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。
优缺点
优点:结果容易理解,计算上不复杂。
缺点:对非线性的数据拟合不好。
适用数据范围:数值型和标称型。
评论