数据传播是根据传播规则将数据从一个或多个源数据仓库分配到另一个本地访问数据库。每天需要数据仓库来管理大量数据。一个数据仓库可以从少量的信息开始,然后通过不断地共享和接收来自多个数据源的信息而开始一天天地增加。
随着数据共享的进步,数据仓库管理成为一个主要问题。需要数据库管理以更有效地在多个子集、安排和时间范围内管理公司信息。这些数据资源需要不断更新,更新过程包括将大量记录从一个系统移到另一个系统,然后再移回商业智能系统。
在不牺牲操作软件或仓库数据的性能或可用性的情况下,在短时间内批量执行大量数据移动是众所周知的。要更改的信息量越大,程序就越具有挑战性和复杂性。因此,数据仓库管理人员的职责是找到更快速地转换大量信息的方法,并仅识别和传输由于上次数据仓库更新而发生变化的数据。
开发了几种方法来解决与通过数据传播共享数据相关的问题,如下所示 -
批量提取- 在这种数据传播技术中,副本管理工具或空实用程序被用于派生所有或部分操作关系数据库。通常,然后使用文件传输协议 (FTP) 任何其他类似技术将提取的信息传输到焦点数据库。提取的数据可以更改为主机或对象服务器上的对象使用的格式。
文件比较- 这种技术是批量移动方法的创新。此阶段将最近提取的操作数据与过去的版本进行比较。之后,生成一组增量变化数据。增量更改的处理与批量提取中使用的方法相同,只是增量更改用作预定阶段内对对象服务器的更新。对于只有一些数据更改的较小文档,建议使用此方法。
Change Data Propagation - 此技术捕获对文件的更改并将其作为软件更改过程的一个元素进行数据处理。可以使用多种技术来执行变更数据传播,包括触发器、日志退出、日志后处理或 DBMS 扩展。生成增量更改文件以包含捕获的更改。
完成源事务后,可以将更改数据转换并更改到对象数据库中。这种数据传播有时被称为近实时或连续传播,用于在源系统的非常短的时间内保持对象数据库同步。