数据仓库中的各种抽取方法有哪些?

提取方法极大地依赖于源规则以及目标数据仓库环境中的业务需求。要提取的信息的估计量和 ETL 过程中的阶段(原始加载或记录的保存)也可以从逻辑和物理角度强制确定如何提取。有两种类型的提取方法,包括逻辑提取方法和物理提取方法。

逻辑提取方法

有两种类型的逻辑提取如下 -

  • 完全提取- 数据完全从源系统中提取。由于此提取遵循源系统上可直接访问的所有数据,因此不需要因为最终成功提取而跟踪数据源的更改。

    将支持源信息,并且源站点上不需要额外的逻辑数据(例如时间戳)。完整提取的示例可以是不同表的导出文档或扫描整个源表的远程 SQL 语句。

  • 增量提取- 由于过去的明确事件而转换的数据将被提取。此事件可以是提取的最后时间或更复杂的业务事件,例如会计期间的最后预订日。

    它可以识别这个增量变化,因为这个确定的时间事件,应该有可能识别所有变化的数据。该数据可以由源数据本身支持,包括一个软件列,反映最终更改的时间戳,或者一个更改表,其中适当的附加结构除了上升的事务之外保持更改的标记。在一般情况下,使用后一种技术定义了将提取逻辑插入到源系统中。

物理提取方法

它基于选择的逻辑提取方法和源端的容量和条件,可以通过两种结构对提取的信息进行物理提取。可以从源系统或离线机制在线提取信息。这种离线机制可能已经发生,也可能由提取例程创建。

有以下物理提取方法如下 -

  • Online Extraction - 数据是从源系统本身精确提取的。提取过程可以直接链接到源系统以连接源表本身或连接到以预先配置的方面(例如,快照日志或移位表)保存信息的中间系统。

  • 离线提取- 数据不是从源系统中精确提取的,而是在初始源系统之外执行的。数据具有当前架构(例如,重做日志、存档日志或移动表空间)或由提取例程生成。