数据挖掘是使用模式识别技术(包括统计和数学技术)传输存储在存储库中的大量数据,从而找到有用的新关联、模式和趋势的过程。它是对事实数据集的分析,以发现意想不到的关系并以对数据所有者既合乎逻辑又对数据所有者有帮助的新方法总结记录。
可以在数据挖掘查询的设计中定义数据挖掘任务,该查询是数据挖掘系统的输入。数据挖掘查询以数据挖掘任务原语的条件表示。这些原语使用户能够在发现过程中与数据挖掘系统相互连接,以指导挖掘过程或从多个角度或深度测试发现。
数据挖掘的任务如下 -
要挖掘的任务相关数据集- 这定义了数据库的部分或用户关注的信息集。这涉及感兴趣的数据库属性或数据仓库维度(定义为相关属性或维度)。
要挖掘的知识种类- 这定义了要操作的数据挖掘功能,包括特征、鉴别、关联或相关分析、分类、预测、聚类、异常值分析或进化分析。
在发现过程中使用的背景知识- 有关要挖掘的领域的知识有助于指导知识发现过程并计算已建立的模式。概念层次结构是一种著名的背景知识形式,它使数据能够以多种抽象方法进行挖掘。
模式评估的兴趣度度量和阈值- 它们可用于指导挖掘过程,或在发现后计算发现的模式。多种类型的知识可以有不同的有趣度量。
将发现的模式可视化的预期表示- 这表示要呈现发现的模式的形式,其中可以包含规则、表格、图表、图形、决策树和立方体。
可以设计一种数据挖掘查询语言来合并这些原语,使用户能够灵活地连接到数据挖掘系统。数据挖掘查询语言支持可以构建用户友好图形界面的权限。这促进了数据挖掘系统与其他数据系统的通信及其与完整数据处理环境的集成。
设计一种包容性数据挖掘语言具有挑战性,因为数据挖掘保护了从数据特征到演化分析的广泛功能。每个任务都有几个要求。有效的数据挖掘查询语言的设计需要广泛了解不同类型数据挖掘任务的能力、局限性和底层结构。