提取是从源系统中提取信息以在数据仓库环境中提供额外帮助的服务。它是 ETL 过程的第一个过程。提取后,可以更改此数据并将其加载到数据仓库中。数据仓库的源系统通常是事务处理软件。它是销售分析数据仓库的源系统,可以是为所有当前订单活动提供数据的订单输入系统。
数据提取是在确定的设计中考虑并移动数据以从数据源(例如数据库)获取相关信息的地方。完成进一步的数据处理,包括插入元数据和其他数据集成;数据工作流中的另一个程序。
大量数据提取来自非结构化数据源和多个数据结构。这种非结构化数据可以是任何形式,包括表、索引和分析。
一个仓库中的数据可以来自多个来源,一个数据仓库需要三种不同的技术来使用传入的记录。这些过程称为提取、转换和加载 (ETL)。
数据提取的过程包含从杂乱的数据源中检索信息。数据提取被加载到关系数据库的登台操作中。因此使用提取逻辑并且使用软件编程接口向源系统请求数据。
有各种类型的数据提取工具如下 -
批处理工具- 传统数据提取工具批量构建这些数据,通常在下班时间减少使用大量评估能力的影响。对于具有适度同质数据源集的封闭、内部部署设置,批量提取解决方案可能是最佳方法。
开源工具- 考虑到支持框架和知识在该领域,开源工具最适合预算有限的软件。各种供应商也将他们的产品作为开源产品提供了有限的或“轻量级”的解释。
基于云的工具-基于云的工具是当前一代的提取产品。目标是实时提取数据作为 ETL/ELT 程序的一个元素,并且基于云的工具在这个领域表现出色,提供利用云支持数据存储和分析的所有优势。这些工具还解决了安全性和协议方面的问题,因为当今的云供应商坚持以这些领域为目标,消除了在内部创建这种专业知识的需要。