数据挖掘是使用模式识别技术(包括统计和数学技术)传输存储在存储库中的大量数据,从而找到有用的新关联、模式和趋势的过程。它是对事实数据集的分析,以发现意想不到的关系并以对数据所有者既合乎逻辑又对数据所有者有帮助的新方法总结记录。
它是对大量信息进行选择、探索和建模的过程,以找到最初未知的规律或关系,从而为数据库所有者获得清晰而有益的结果。
数据挖掘类似于数据科学。它是由一个人在特定情况下,针对特定数据集,有目标地执行的。此阶段包含多种类型的服务,包括文本挖掘、Web 挖掘、音频和视频挖掘、图片数据挖掘和社交媒体挖掘。它是通过简单或非常具体的软件完成的。
通过外包数据挖掘,所有的工作都可以以较低的运营成本更快地完成。特定公司还可以使用新技术来保存手动无法找到的数据。在多个平台上有大量数据可用,但可访问的知识非常有限。
主要的挑战是分析数据以提取可用于解决问题或公司发展的基本数据。有许多动态工具和技术可用于挖掘数据并从中发现更好的判断力。
数据挖掘也称为数据库中的知识发现 (KDD)。知识发现作为一个过程包括以下步骤的一系列迭代 -
数据清理- 它可以消除噪音和不一致的信息。
数据集成- 在数据集成中,可以连接多个数据源。
数据选择- 在数据选择中,从数据库中获取与分析功能相关的数据。
数据转换- 在数据转换中,通过执行汇总或聚合操作将数据转换或链接为适用于挖掘的形式。
数据挖掘- 这是使用智能方法提取数据模式的重要阶段。
模式评估- 它可以根据一些有趣的度量来识别真正有趣的模式定义知识。
知识展示- 在知识展示中,使用可视化和知识表示方法将挖掘的知识提供给客户。