基于模型的聚类是一种数据聚类的统计方法。观察到的(多变量)数据被认为是从组件模型的有限组合中创建的。每个分量模型都是一个概率分布,一般是参数多元分布。
例如,在多元高斯混合模型中,每个分量都是多元高斯分布。负责生成特定观察的组件确定观察所属的集群。
基于模型的聚类是一种尝试提高给定数据与某些数学模型之间的拟合,并且基于数据是由基本概率分布的组合创建的假设。
有以下类型的基于模型的聚类如下 -
统计方法- 期望最大化是一种流行的迭代细化算法。k-means 的扩展 -
它可以根据权重(概率分布)将每个对象分配到一个簇中。
新均值是根据权重度量计算的。
基本思想如下 -
它可以从参数向量的初始估计开始。
它可用于根据参数向量生成的混合密度对设计进行迭代重新评分。
它用于重新评分的模式,用于更新参数估计。
如果它们按其分数放置在特定组件中,则它可以用于模式属于同一集群。
最初,随机分配 k 个聚类中心。
可以基于两个步骤迭代地细化集群,如下所示 -
期望步骤- 它可以将每个数据点 X i分配给集群 C i具有以下概率
$$\mathrm{P(X_{i}\in\:C_{k})\:=\:P(C_k\arrowvert\:X_i)\:=\:\frac{ P(C_k)P(X_i\arrowvert\:C_k )}{ P(X_i)}}$$
最大化步骤- 可用于估计模型参数
$$\mathrm{m_k\:=\:\frac{1}{N}\displaystyle\sum\limits_{i=1}^N \frac{X_{i}P(X_i\:\in\:C_k) }{X_{j} P(X_i)\in\:C_j}}$$
机器学习方法- 机器学习是一种为大量数据处理制作复杂算法并为其用户提供结果支持的方法。它使用可以通过经验理解并创建预测的复杂程序。
通过频繁输入训练信息,算法自身得到改进。机器学习的主要目标是学习数据并从人类可以理解和使用的数据中构建模型。
它是一种著名的增量概念学习方法,它以分类树的形式产生层次聚类。每个节点定义一个概念并包含该概念的概率表示。
限制
属性相互独立的假设通常太强,因为相关性可能存在。
它不适合对大型数据库数据、倾斜树和昂贵的概率分布进行聚类。
神经网络方法- 神经网络方法将每个集群表示为一个示例,充当集群的原型。根据某种距离度量,新对象被分配到其示例最相似的集群。