什么是基于网格的方法?

基于网格的聚类方法使用多分辨率网格数据结构。它将对象区域量化为有限数量的单元格,这些单元格形成了一个网格结构,在该网格结构上实现了所有聚类操作。该方法的好处是处理时间快,通常与数据对象的数量无关,仍然仅依赖于量化空间中每个维度的多个单元格。

基于网格的方法的一个实例包括 STING,它探索存储在网格单元中的统计数据,WaveCluster,它使用小波变换方法对对象进行聚类,以及 CLIQUE,它定义了一种基于网格和密度的聚类方法,用于在高维数据空间。

STING 是一种基于网格的多分辨率聚类方法,其中将空间区域划分为矩形单元。这种矩形单元一般有好几层,对应多级分辨率,这些单元形成分层机制,每一个高层次的单元被分离成下一个较低层次的几个单元。预先计算并存储关于每个网格单元中的属性(包括平均值、最大值和最小值)的统计数据。

上级单元的统计参数可以简单地从下级单元的参数计算出来。这些参数包含以下内容:与属性无关的参数,计数,以及与属性相关的参数,均值、stdev(标准差)、min(最小值)、max(最大值);以及单元格中属性值遵循的分布类型,包括正态、均匀、指数或无(如果分布是匿名的)。

当记录加载到数据库中时,底层单元格的参数计数、平均值、标准差、最小值和最大值是直接从记录中计算出来的。如果分布类型事先已知或通过假设检验(包括 χ 2检验)获得,则可由用户指定分布值。

可以计算的高层单元的分布类型取决于其对应的低层单元的大多数分布类型以及阈值过滤过程。如果下层单元格的分布不一致,拒绝阈值测试,则将上层单元格的分布类型设置为无。

统计参数可用于自顶向下、基于网格的方法,如下所示。首先,确定分层体系结构中的一层,查询-回答过程将从该层开始。该层通常包括少量单元格。对于当前层中的每个单元格,它可以计算反映单元格与给定查询的相关性的置信区间(或估计的概率范围)。