数据挖掘是通过转移存储在存储库中的大量数据、使用模式识别技术以及统计和数学技术来发现有意义的新关联、模式和趋势的过程。它是对观测数据集的分析,以发现未预料到的关系并以对数据所有者来说既易于理解又有用的新颖方式总结数据。
它是对大量信息进行选择、探索和建模的过程,以找到最初未知的规律或关系,从而为数据库所有者获得清晰而有益的结果。数据挖掘是通过自动或半自动方式对大量数据进行探索和分析以找到有意义的设计和方法的阶段。
数据挖掘是一种重要的方法,它从大量信息中提取以前未知的和可能有用的数据。数据挖掘过程包含几个组件,这些组件构成了一个数据挖掘系统结构。数据挖掘的主要组成部分如下 -
信息存储库- 这是一个或一组数据库、数据仓库、电子表格或几种类型的数据存储库。可以对数据实施数据清洗和数据集成技术。
数据库或数据仓库服务器- 数据库或数据仓库服务器负责根据用户的数据挖掘请求获取相关数据。
知识库- 这是可以指导搜索或计算结果设计的兴趣度的领域知识。
数据挖掘引擎- 这对数据挖掘系统很重要,它包括一组用于任务的功能模块,包括表征、关联和相关分析、分类、预测、聚类分析、异常值分析和进化分析。
模式评估模块- 该组件通常采用兴趣度度量并与数据挖掘结构进行通信,以将搜索重点放在有趣的设计上。
该部分通常采用与数据挖掘模块合作的权益措施,以将搜索定位为引人入胜的设计。它可以利用权益阈值来过滤发现的设计。
换言之,基于所使用的数据挖掘技术的执行,模式评估模块可以与挖掘模块协调。为了有效的数据挖掘,建议尽可能多地将模式权益的评估推入挖掘过程,以将搜索限制在有趣的设计上。
用户界面- 该模块连接用户和数据挖掘系统,使用户能够通过定义数据挖掘查询或任务,提供数据帮助集中搜索,并根据中间数据挖掘结果实施探索性数据挖掘来与系统进行交互.
此外,该组件允许用户浏览数据库和数据仓库设计或数据结构,评估挖掘的模式,并以不同的形式可视化模式。