什么是分层方法?

层次聚类技术通过将数据对象组合成聚类树来工作。层次聚类算法要么是自顶向下,要么是自底向上。一旦合并或拆分决策完成,真实的层次聚类方法的质量会因无法实施调整而恶化。

簇的合并是基于簇之间的距离。广泛使用的簇间距离度量如下,其中mi 是簇Ci 的均值,ni 是Ci 中的点数,|p – p'| 是两点 p 和 p' 之间的距离。

层次聚类方法的类型

有两种类型的层次聚类方法如下 -

凝聚层次聚类 (AHC) - AHC 是一种自下而上的聚类方法,其中簇有子簇,子簇又具有子簇等。它首先在其簇中定位每个对象,然后将这些原子簇组合成更大的和更大的簇,直到所有对象都在一个簇中或直到它满足特定的终止条件。大多数层次聚类方法都适用于这种类型。它们的区别仅在于它们对簇间相似性的定义。

例如,一种称为 AGNES(凝聚嵌套)的方法使用单链接技术并按如下方式工作。考虑有一组位于矩形中的对象。最初,每个对象都被放置在它自己的一个簇中。然后根据一些原则逐步组合簇,包括合并簇中最近对象之间具有最小欧几里得距离的簇。

Divisive Hierarchical Clustering (DHC) - DHC 是一种自上而下的方法,不太常用。它以类似于凝聚聚类的方法工作,但方向相反。该方法从包含所有对象的单个簇开始,然后连续分裂得到的簇,直到只剩下单个对象的簇或直到满足特定的终止条件,包括获得所需的簇数或两个最近簇之间的距离大于a特定阈值距离。

由于难以在高层次上做出正确的划分决策,因此划分方法通常不可用,也很少使用。DIANA(Divisia Analysis)是分裂层次聚类方法的一个例子。它以相反的顺序工作。最初,所有对象都位于一个集群中。从而根据某种原则划分簇,包括根据簇中最近的相邻对象之间的最大欧氏距离划分簇。