数据挖掘是通过使用模式识别技术(包括统计和数学技术)传输存储在存储库中的大量数据来寻找有用的新相关性、模式和趋势的过程。它是对事实数据集的分析,以发现未预料到的关系,并以既合乎逻辑又对数据所有者有帮助的新颖方法总结记录。
在数据挖掘中,数据的隐藏模式被认为是根据多个类别成为一个有用的数据。这些数据被组装在一个区域中,包括用于分析它的数据仓库,并执行数据挖掘算法。这些数据有助于制定有效的决策,从而降低价值并增加收入。
数据挖掘是一种重要的方法,它从大量信息中提取以前未知且可能有用的数据。数据挖掘过程包含若干组件,这些组件构成了数据挖掘系统结构。
数据仓库是一种主要用于收集和管理来自各种来源的数据的技术,以便为业务提供有意义的业务洞察力。数据仓库是专门为支持管理决策而设计的。
简单来说,数据仓库定义了一个独立于组织的运营数据库进行维护的数据库。数据仓库系统能够集成多个应用系统。它们通过提供用于分析的综合历史信息的可靠平台来提供数据处理。
数据仓库在多维空间中概括和集中数据。数据仓库的构建包括数据清洗、数据集成和数据转换,可以看作是数据挖掘的重要预处理步骤。
它提供了在线分析处理(OLAP)工具,用于对不同粒度的多维数据进行交互式分析,有利于有效的数据泛化和数据挖掘。有多种数据挖掘功能,包括关联、分类、预测和聚类,可以与 OLAP 操作相结合,在各个抽象层次上构建交互式知识挖掘。
让我们看看数据挖掘和数据仓库之间的比较。
数据挖掘 | 数据仓库 |
---|---|
Data mining is usually treated as the procedure of extracting useful data from a huge set of data. | 数据仓库是组合所有相关信息的阶段。 |
The benefit of the data mining approach is the detection and identification of the unwanted errors that appear in the system. | 数据仓库的好处是它能够频繁更新。主要原因是它非常适合需要了解最新信息的企业家。 |
Data mining is the phase of determining data patterns. | 数据仓库是为分析而设计的数据库系统。 |
The data mining techniques are profitable as compared to different statistical data applications. | 数据仓库的权限是方便各类业务信息。 |