数据挖掘是通过使用模式识别技术(包括统计和数学技术)传输存储在存储库中的大量数据来寻找有用的新相关性、模式和趋势的过程。它是对事实数据集的分析,以发现未预料到的关系,并以既合乎逻辑又对数据所有者有帮助的新颖方法总结记录。
主要挑战是分析数据以提取可用于解决问题或用于公司发展的基本数据。有许多动态工具和技术可用于挖掘数据并从中发现更好的判断。
有多种数据挖掘技术如下 -
分类- 分类是一种数据挖掘技术,它为一组数据创建元素以帮助进行更有效的预测和分析。有几种方法旨在有效地创建对非常庞大的数据集的分析。
分类是数据挖掘中最重要的任务之一。它指的是根据实例的属性为实例分配预定义的类标签的过程。分类和聚类之间有相似之处,看起来一样,但实际上是不同的。分类和聚类之间的主要区别在于,分类涉及根据元素在预定义组中的成员资格对元素进行分级。
聚类- 将一组物理或抽象对象组合成类似对象的类的阶段称为聚类。集群是一组数据对象,它们在同一集群中彼此相同,但与其他集群中的对象不同。在多个应用程序中,可以将一组数据对象统称为一个组。聚类分析是一项必不可少的人类活动。
回归- 这些方法用于从一个或多个预测变量(独立)变量预测响应(因)变量的值,其中变量是数字的。有几种形式的回归,包括线性回归、多重回归、加权回归、多项式回归、非参数回归和稳健回归(当误差无法满足正常条件或数据包含显着异常值时,稳健技术是有益的)。
外部检测- 这种类型的数据挖掘技术与观察数据集中的数据项有关,这些数据项与预期模式或预期行为不匹配。该技术可用于各种领域,如入侵、检测、欺诈检测等。它也称为异常值分析或异常值挖掘。
顺序模式- 顺序模式是一种专门用于计算顺序数据以查找顺序模式的数据挖掘技术。它包括在序列集合中找到有趣的子序列,其中可以根据长度、出现频率等几个元素来衡量序列的重要性。