数据仓库和数据挖掘

数据仓库

数据仓库是工具和技术的集合,利用这些工具和技术可以从大量数据中清除更多的知识。这有助于决策过程并改善信息资源。 

数据仓库基本上是具有唯一数据结构的数据库,该数据库可以相对快速,轻松地对大量数据执行复杂的查询。它是从多个异构源创建的。

数据仓库的特点

  • 集成

  • 时变 

  • 非易失性

数据仓库的目的是支持决策过程。由于我们可以从数据仓库生成报告,因此它使信息易于访问。它通常包含源自事务数据的历史数据,但也可以包含来自其他来源的数据。数据仓库始终与事务数据分开。 

我们有多个数据源,在这些数据源上应用了ETL流程,在这些流程中,我们从数据源中提取数据,然后根据一些规则进行转换,然后将数据加载到所需的目标位置,从而创建数据仓库。

数据挖掘 

数据挖掘是指从大量数据中提取知识。数据源可以包括数据库,数据仓库,Web等。

知识发现是一个迭代序列:

  • 数据清理–删除不一致的数据。

  • 数据集成–将多个数据源合并为一个。

  • 数据选择–仅选择要分析的相关数据。

  • 数据转换–将数据转换为适当的形式以进行挖掘。

  • 数据挖掘–提取数据模式的方法。

  • 模式评估–确定数据中有趣的模式。

  • 知识表示-使用可视化和知识表示技术。

可以挖掘什么样的数据?

  • 数据库数据

  • 数据仓库 

  • 事务数据

数据挖掘范围

  • 趋势和行为的自动预测:数据挖掘可自动在大型数据库中查找预测信息的过程。例如:考虑一家营销公司。在这家公司中,数据挖掘使用过去的促销邮件来确定目标,以最大化回报。

  • 自动发现以前未知的模式:数据挖掘遍历数据库并识别以前隐藏的模式。例如:在零售商店中,数据挖掘将遍历整个数据库并找到通常组合在一起的商品的模式。