数据挖掘是通过共享存储在存储库中的大量数据,使用模式识别技术(包括统计和数学技术)来寻找有用的新相关性、模式和趋势的过程。它是对事实数据集的分析,以发现意想不到的关系并以对数据所有者既合乎逻辑又对数据所有者有帮助的新方法总结记录。
它是对大量信息进行选择、探索和建模的过程,以找到最初未知的规律或关系,从而为数据库所有者获得清晰而有益的结果。
它不限于使用计算机算法或统计技术。它是一个商业智能过程,可与信息技术一起使用以支持公司决策。
数据挖掘类似于数据科学。它是由一个人在特定情况下,针对特定数据集,有目标地执行的。此阶段包含多种类型的服务,包括文本挖掘、Web 挖掘、音频和视频挖掘、图片数据挖掘和社交媒体挖掘。它是通过简单或非常具体的软件完成的。
近年来,由于海量数据的广泛可用性以及将这些数据转化为有益数据和知识的迫切需要,数据挖掘在信息市场和整个社会中引起了极大的关注。获得的信息和知识可用于从行业分析、欺诈检测和用户保留到生产控制和科学探索的软件。
数据挖掘可以被认为是数据技术自然进步的结果。数据库系统市场支持以下功能的发展方向,包括数据收集和数据库创建、数据管理和高级数据分析。
例如,最近数据收集和数据库创建结构的发展对于后来开发用于数据存储和检索、查询和事务处理的有效结构是必要的。随着各种数据库系统提供查询和事务处理成为普遍做法,高级数据分析已发展成为下一个对象。
数据可以保存在多种类型的数据库和数据存储库中。数据仓库中出现的一种数据存储库结构,在单个站点以统一模式组织的多个异构数据源的存储库,以支持管理决策。
数据仓库技术涉及数据清洗、数据集成和在线分析处理(OLAP),特别是具有汇总、整合、聚合等功能的分析技术,以及多角度查看数据的能力。