基于核的算法简介
基于核的算法 支持向量机通过某非线性变换 φ( x) ,将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 K(x, x′) ,它恰好等于在高维空间中这个内积,即K( x, x′) =<φ( x) ⋅φ( x′) > 。那么支持向量机就不用计算复杂的非线性变换,而由这个函数 K(x, x′) 直接得到非线性变换的内 ...
梯度推进机
梯度推进机(Gradient Boosting Machine,GBM) 梯度推进理论核心是梯度推移理论。它认为,不同国家或不同地区间存在着产业梯度和经济梯度,存在梯度地区技术经济势差,就存在着技术经济推移的动力,就会形成生产力的空间推移。梯度推进是一种用于回归和分类问题的机器学习技术,该技术以弱预测模型(通常为决策树)的集合的形式产生预测模型。它像其他增强方法那样以阶段式方式构建模型,并且通过允 ...
多元自适应回归样条
多元自适应回归样条(MARS) 多元自适应回归样条(Multivariate Adaptive Regression Splines,MARS)是由美国的统计学家Jerome Friedman于1991年提出的一种数据分析方法。 该方法以样条函数的张量积作为基函数,分为前向过程、后向剪枝过程与模型选取三个步骤。其优点在于能够处理数据量大、维度高的数据,而且计算快捷、模型精确。在一般回归分析理论和样 ...
随机森林
随机森林(Random Forest) 随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来 ...
卡方自动交互检测算法
卡方自动交互检测算法 CHAID(Chi-squared Automatic Interaction Detection) 卡方自动交互检测法(chi-squared automatic interaction detector, CHAID)最早由Kass于1980年提出,是一个用来发现变量之间关系的工具,是一种基于调整后的显着性检验(邦费罗尼检验)决策树技术。 其核心思想是:根据给定的反应变量 ...
ID3算法
ID3算法(Iterative Dichotomiser 3) ID3算法是决策树的一种,它是基于奥卡姆剃刀原理的,即用尽量用较少的东西做更多的事。ID3算法,即Iterative Dichotomiser3,迭代二叉树三代,是Ross Quinlan发明的一种决策树算法,这个算法的基础就是上面提到的奥卡姆剃刀原理,越是小型的决策树越优于大的决策树,尽管如此,也不总是生成最小的树型结构,而是一个启 ...
分类和回归树
分类和回归树(CART) 分类回归树(Classification And Regression Tree, CART)模型是决策树学习方法的一种,CART既可以用于分类计算,也可以用于回归。 不同于C4.5,CART本质是对特征空间进行二元划分(即CART生成的决策树是一棵二叉树),并能够对标量属性(nominal attribute)与连续属性(continuous attribute)进行分 ...
决策树算法简介
决策树(Decision Tree) 决策树(Decision Tree)是应用于分类的一种树结构。其中的每个内部节点(internal node)代表对某个属性的一次测试判别,一个分枝代表一个测试结果,叶子(leaf)代表某个类(class)或者类的分布(class distribution)。最顶层的节点是根结点。可以将决策树理解为一个if-then规则的集合,由决策树的根节点到叶节点的每一条 ...
深度自动编码器
深度自动编码器(Deep Autoencoder Networks) 自动编码器是一种无监督的神经网络模型,它可以学习到输入数据的隐含特征,这称为编码(coding),同时用学习到的新特征可以重构出原始输入数据,称之为解码(decoding)。从直观上来看,自动编码器可以用于特征降维,类似主成分分析PCA,但是其相比PCA其性能更强,这是由于神经网络模型可以提取更有效的新特征。除了进行特征降维,自 ...
t-分布随机近邻嵌入
t-分布随机近邻嵌入(t-SNE) t-分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE) 是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外,t-SNE 是一种非线性降维算法,非常适用于高维数据降维到2维或者3维,进行可视化。 流形(Manif ...