为什么小波变换对聚类有用?

WaveCluster 是一种多分辨率聚类算法,它首先通过将多维网格架构强加到数据空间来汇总记录。它可以使用小波变换来改变原始特征空间,在变换后的空间中寻找密集域。

在这种方法中,每个网格单元总结了映射到单元中的一组点的数据。该汇总数据通常适合主存储器,供多分辨率小波变换和随后的聚类分析使用。

小波变换是一种将信号分解为多个频率子带的信号处理方法。通过使用一维小波变换d次,小波模型可以用于d维信号。在应用小波变换时,数据被更改以在多个分辨率级别保持对象之间的相对距离。这使数据中的自然集群变得更容易检测。可以通过在新域中搜索密集区域来识别集群。

小波变换的优点如下 -

它提供无监督聚类:它需要帽子形过滤器来强调点聚类的区域,同时抑制聚类边界之外的较弱数据。

  • 它提供无监督聚类- 它需要帽子形过滤器来强调点聚类的区域,同时抑制聚类边界之外的较弱数据。

    因此,初始特征空间中的密集区域充当相邻点的吸引子和远离点的抑制剂。这定义了数据中的集群自动突出并“清除”它们周围的区域。因此,另一个好处是小波变换可以自动消除异常值。

  • 小波变换的多分辨率特征可以支持在多个精度级别上检测集群。

  • 基于小波的聚类非常快,计算复杂度为 O(n),其中 n 是数据库中的对象数。算法实现可以并行创建。

  • WaveCluster 是一种基于网格和密度的算法- 它符合一个好的聚类算法的几个要求 - 它有效地管理大型数据集,找到任意形状的集群,成功管理异常值,对输入顺序不敏感,并且不需要定义输入参数,包括簇数或邻域半径。

    在初步研究中,发现 WaveCluster 在效率和聚类质量方面均优于 BIRCH、CLARANS 和 DBSCAN。该研究还发现 WaveCluster 能够管理多达 20 个维度的数据。