什么是数据缩减?

对海量数据库中选定的数据进行数据挖掘。当对大量数据进行数据分析和挖掘时,需要很长时间来处理,这使得它不切实际和不可行。它可以减少数据分析的处理时间,数据简化技术用于通过保持原始数据的完整性来获得体积小得多的数据集的简化表示。通过减少数据,可以提高数据挖掘过程的效率,从而产生相同的分析结果。

数据缩减旨在更紧凑地定义它。当数据量较小时,应用复杂且计算成本高的算法更简单。数据的减少可能是在行数(记录)或列数(维度)方面。

数据减少有多种策略如下 -

数据立方体聚合- 在此方法中,聚合操作用于构建数据立方体中的数据。这些数据包括 2002 年到 2004 年每季度的 All Electronics 销售额。它对年销售额(每年总计)感兴趣,而不是每季度总计。因此,可以汇总数据,以便所得数据汇总每年而不是每季度的总销售额。生成的数据集体积更小,不会丢失分析任务所必需的数据。

属性子集选择- 在这种方法中,可以发现和删除不相关、弱相关或冗余的属性或维度。用于分析的数据集可能包括数百个属性,其中一些可能与挖掘任务无关或冗余。例如,如果任务是安排客户在收到销售通知时是否有可能在 All Electronics 购买流行的新 CD,则客户的号码等属性可能无关紧要,这与诸如年龄或音乐品味。

- 编码机制用于减少数据集的大小。在降维中,应用数据编码或变换来获得原始数据的简化或“压缩”表示。如果可以从压缩后的数据中重建原始数据而不会丢失任何信息,则称为无损数据缩减。

数量减少- 数据通过替代的较小数据表示进行恢复或预测,包括参数模型(仅需要保存模型参数而不是实际数据)或非参数方法,包括聚类、采样和直方图的使用。

离散化和概念层次生成- 在这种方法中,属性的原始数据值被范围或更高的概念级别替换。数据离散化是一种数量减少的形式,非常有利于概念层次结构的自动生成。离散化和概念层次生成是数据挖掘的动态工具,因为它们能够在不同抽象层次上挖掘数据。