数据挖掘中的聚类有哪些类型?

聚类分析用于根据对这些记录进行的各种测量来形成相同记录的组或聚类。它可以以有利于分析目标的方式定义集群。这些数据已被用于多个领域,例如天文学、考古学、医学、化学、教育、心理学、语言学和社会学。

有各种类型的集群如下 -

Well-Separated - 集群是一组对象,其中每个元素都更接近集群中的每个其他元素,而不是集群中的某个对象。有时,阈值可以定义集群中的所有对象应该彼此足够接近(或相似)。只有当数据包括彼此完全远离的自然集群时,才需要对集群进行这种描述。

Prototype-Based - 集群是一组对象,其中每个对象更接近表示集群的原型,而不是一些多个集群的原型。对于具有连续属性的数据,集群的原型是一个质心,例如集群中各个点的平均值(mean)。当质心不重要时,包括当记录具有分类属性时,原型是一个中心点,例如集群的一般点。

Graph-Based - 如果数据是典型的图,其中节点是对象,链接定义对象之间的连接,那么集群可以表示为连接元素;即,一组相互链接的对象,但与组中更远的对象没有任何联系。

基于图的集群的重要实例是基于邻接的集群,其中两个对象仅在它们彼此在指定距离内时才链接。这表明基于邻接的集群中的每个对象都更接近集群中的多个对象,而不是多个集群中的某个点。

基于密度的方法- 一些分区技术根据对象之间的距离对对象进行聚类。这种方法只能发现球形簇,并且在发现任意形状的簇时遇到困难。根据密度的概念,已经生成了多种聚类方法。

DBSCAN 是一种基于密度的频繁方法,可根据密度阈值增加集群。OPTICS 是一种基于密度的方法,可计算扩展的聚类排序以进行自动和相互聚类分析。

基于网格的方法- 基于网格的方法将对象区域量化为形成网格结构的有限多个单元。在网格结构(即量化空间)上实现了几个聚类服务。

这种方法的优点是它的快速处理时间通常独立于多个数据对象并且仅基于量化空间中每个维度中的多个单元格。