将一组物理或抽象对象组合成相同对象的类的过程称为聚类。集群是一组数据对象,它们在同一集群中彼此相同,但与其他集群中的对象不同。在多个应用程序中,可以将一组数据对象统称为一个组。聚类分析是一项必不可少的人类活动。
聚类分析用于根据对这些记录进行的各种测量来形成相同记录的组或聚类。关键设计是以对分析目标有用的方式定义集群。这些数据已被用于多个领域,例如天文学、考古学、医学、化学、教育、心理学、语言学和社会学。
集群有各种元素,如下所示 -
数据分布- 一些聚类技术考虑数据的特定分布类型。此外,他们可以认为数据可以建模为来自分布的组合,其中每个集群都与一个分布相关。
形状- 一些集群是系统形状的,例如矩形或球状,但像往常一样,集群可以是任意形状。包括 DBSCAN 和单链路在内的技术可以管理任意形状的集群,但基于原型的方案和一些分层技术,包括完整的链路和组平均,不能。
Differing Sizes - 当集群有多种大小时,包括 K-means 在内的几种聚类方法不能很好地运行。
不同的密度- 具有广泛不同密度的集群可能会为包括 DBSCAN 和 K-means 在内的方法产生问题。
分离不佳的集群- 当集群接触或重叠时,几种集群方法组合必须保持独立的集群。即使是发现不同集群的技术也会任意创建指向一个或另一个集群的点。
集群之间的关系- 在大多数集群技术中,没有明确考虑集群之间的关联,包括它们的相对位置。自组织图是一种聚类方法,在聚类阶段直接处理聚类之间的关系。此外,将点分配给一个集群会影响附近集群的定义。
子空间集群- 集群只能存在于维度(属性)的子集中,使用一组维度决定的集群可能与使用另一组维度决定的集群不同。
虽然这个问题可能会随着维度的减少而增加,但随着维度的提高,它会变得更加尖锐,因为几个可能的维度子集在维度总数中是指数的。因为它不适用于简单地查看所有可能的维度子集中的集群,除非多个维度相对较低。