层次聚类方法通过将数据对象合并到聚类树中来进行操作。层次聚类算法是自上而下或自下而上的。准确的层次聚类技术的特点是由于完成了合并或拆分决策而无法执行调整。
层次聚类的各种元素如下 -
缺乏全局目标函数
凝聚层次聚类方法使用几个元素在每个步骤中局部地决定哪些集群必须合并(或分裂的方法)。
这种方法产生的聚类算法可以避免解决复杂组合优化问题的困难。
处理不同集群大小的能力
凝聚层次聚类的要素,即如何考虑组合的聚类组的关联大小。它仅用于对包含总和的邻近方案进行聚类,例如质心、沃德和组平均值。
有两种方法,例如加权,它平等地考虑所有集群,以及不加权,它创建每个集群中的点数。加权或未加权的术语定义了数据点,而不是集群。换句话说,考虑大小不等的集群为不同集群中的点提供了多个权重,同时考虑创建集群大小为不同集群中的点提供了相似的权重。
合并决定是最终决定
凝聚层次聚类算法会影响关于组合两个聚类的良好局部决策的创建,因为它们可能需要有关所有点的成对相似性的数据。因为决定合并两个集群,所以下次无法撤消。该方法避免了局部优化元素成为全局优化准则。
例如,虽然 K-means 的“最小平方误差”标准用于确定在 Ward 方法中合并哪些集群,但每个级别的集群并未定义关于总 SSE 的局部最小值。实际上,集群不是动态的,因为一个集群中的一个点可以更接近不同集群的质心,而不是它最近的集群的质心。
一些试图克服合并是最终限制的方法。一种方法试图通过修改树的分支来提供层次聚类,以增强全球目标函数。另一种方法需要包括Kmeans在内的分区聚类技术来产生一些小聚类,然后以这些小聚类为起点实现层次聚类。