什么是数据集成?

数据集成是组合来自多个不同来源的数据的阶段。在实施数据集成时,要处理数据的冗余、不一致、重复等问题。 在数据挖掘中,数据集成是一种数据预处理技术,包括将来自众多异构数据源的数据合并成一致的数据,以保留和支持统一的观点的信息。

它将来自各种来源的数据组合到一个连贯的数据存储中,包括在数据仓库中。这些来源可能涉及多个数据库、数据立方体或平面文件等。在数据集成过程中需要考虑多个问题。

  • 模式集成和对象匹配可能很复杂。例如,匹配实体标识(一个数据库中的 emp_id 和另一个数据库中的 emp_no),可以使用元数据来防止此类问题。

  • 冗余是另一个问题。例如,如果包含年收入的属性可以从另一个属性或一组属性导出,则它可能是多余的。属性或维度命名的不一致也会在出现的数据集中产生冗余。

  • 通过相关分析可以发现一些冗余。给定两个属性,这种分析可以根据可用数据计算一个属性对另一个属性的暗示程度。对于数值属性,它可以通过计算相关系数(也称为 Pearson 积矩系数,以其发明者 Karl Pearson 的名字命名)来评估 A 和 B 两个属性之间的相关性。这是

$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N \sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}} {N\sigma _{A}\sigma _{B}}$$

其中 N 为元组数,a i和 b i分别为元组 i 中 A 和 B 的值,A '和 B '分别为 A 和 B 的平均值,σ A和 σ B分别为标准偏差A 和 B 和 Σ(a i b i ) 是 AB 叉积的总和,即对于每个元组,A 的值乘以该元组中 B 的值。

相关性并不意味着因果关系。也就是说,如果 A 和 B 相关,这并不一定意味着 A 导致 B 或 B 导致 A。例如,在分析人口统计数据库时,它可以找到定义多个医院和几个汽车盗窃的属性区域是相关的。这并没有定义一个导致另一个。两者通常都与第三个属性有关,例如人口。

数据集成中的第三个重要问题是数据值冲突的检测和解决。例如,对于同一个现实世界的实体,来自多个来源的属性值可能不同。这可能是因为表示、缩放或编码的差异。