聚类算法

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

聚类算法是一种非监督学习。聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。

聚类算法主要可分为:划分方法(partitioning method),层次方法(hierarchical method),基于密度的方法(density-basedmethod),基于网格的方法(grid-based method),和基于模型的方法(model-based method)。

聚类算法(Cluster analysis)的应用算法有:

  • K-均值(K-Means Algorithm)

  • 模糊聚类Fuzzy Clustering

  • 期望最大化(Expectation-Maximization)

  • 聚类分析(Cluster Analysis)

原文:https://github.com/KeKe-Li/tutorial