聚类的方法有哪些?

有多种聚类方法如下 -

分区方法- 给定一个包含 n 个对象或数据元组的数据库,分区方法组装信息的 k 个分区,其中每个分区定义一个集群,并且 k < n。它可以将数据分配到 k 个组中,可以满足以下必要性 -

  • 每组必须至少包含一个对象。

  • 每个对象应准确应用于一组。

给定要构造的分区数 k,分区方法进行初始分区。然后它使用迭代重定位方法,该方法尝试通过将对象从一个组转换到另一个组来改进分区。

良好划分的一般标准是同一簇中的对象“接近”或相互关联,而不同簇中的对象“相距甚远”或非常不同。有几种类型的其他标准可用于确定分区的质量。

分层方法- 分层方法生成给定数据对象集的分层分解。分层方法可以分为凝聚法或分裂法,这取决于分层分解的产生方式。凝聚法也称为“自下而上”的方法。

它可以从每个对象形成一个独立的组开始。它依次组合彼此靠近的对象或组,直到所有组组合为一个(层次结构的最顶层),或者直到终止条件成立。分裂方法也称为“自上而下”的方法。它可以从同一个集群中的所有对象开始。在每次连续迭代中,一个簇被分成更小的簇,直到最终每个对象都在一个簇中,或者直到终止条件成立。

基于密度的方法- 一些分区方法基于对象之间的距离对对象进行聚类。这种方法只能发现球形的簇,在寻找任意形状的簇时遇到困难。已经基于密度的概念创建了其他聚类方法。

DBSCAN 是一种典型的基于密度的方法,它根据密度阈值增加集群。OPTICS 是一种基于密度的方法,用于评估增强聚类排序以进行自动和交互式聚类分析。

基于网格的方法-基于网格的方法将对象空间量化为有限数量的单元,形成网格架构。一些聚类操作是在网格架构上(即在量化空间上)实现的。

这种方法的好处是它的快速处理时间,它通常与数据对象的数量无关,并且仅取决于量化空间中每个维度的单元格数量。STING 是基于网格的方法的一个实例。CLIQUE 和 Wave-Cluster 是两种基于网格和基于密度的聚类算法。

基于模型的方法-基于模型的方法为每个集群假设一个模型,并发现记录与给定模型的最佳拟合。基于模型的算法可以通过创建反映数据点空间分布的密度函数来定位集群。它还导致了一种基于标准统计数据自动确定聚类数量的方法,将“噪声”或异常值考虑在内,从而产生稳健的聚类方法。