数据挖掘中聚类的要求是什么?

数据挖掘中的聚类有以下要求:

可扩展性- 一些聚类算法在包括少于一百个数据对象的小数据集上运行良好。一个庞大的数据库可以包含数百万个对象。对给定的庞大数据集的样本进行聚类可能会导致部分结果。需要高度可扩展的聚类算法。

处理不同类型属性的能力- 一些算法旨在对基于区间的(数字)信息进行聚类。但是,应用程序可能需要对多种类型的数据进行聚类,包括二进制、分类(名义)和序数数据,或这些数据类型的组合。

发现任意形状的集群- 一些聚类算法根据欧几里德或曼哈顿距离度量确定集群。依赖于这种距离度量的算法往往会发现具有相同大小和密度的球形簇。但是,簇可以是任何形状。开发能够识别任意形状簇的算法至关重要。

确定输入参数对领域知识的最低要求- 一些聚类算法需要用户在聚类分析中输入特定参数(包括所需聚类的数量)。聚类结果对输入参数绝对敏感。参数很难决定,尤其是对于包含高维对象的数据集。这不仅是任务用户,而且还造成难以控制的聚类质量。

处理嘈杂数据的能力- 大多数现实世界的数据库都包含异常值或缺失、未知或错误的信息。一些聚类算法热衷于此类数据,并可能导致质量较差的聚类。

增量聚类和对输入记录顺序的不敏感- 一些聚类算法不能将新插入的信息(即数据库更新)包括到当前聚类结构中,而是必须从头开始决定新的聚类。

一些聚类算法对输入记录的顺序很敏感。给定一组数据对象,包括算法可以根据输入对象的呈现顺序返回截然不同的聚类。开发增量聚类算法和对输入顺序不敏感的算法至关重要。

高维- 数据库或数据仓库可以包含多个维度或属性。一些聚类算法擅长管理低维数据,仅包含两到三个维度。人眼最擅长确定最多三个维度的聚类质量。它用于在高维空间中查找数据对象的集群是复杂的,尤其是处理此类数据可能不充分和高度倾斜的情况。