KDD的过程是什么?

KDD 代表数据库中的知识发现。它定义了在数据中发现知识的广泛过程,并强调了确定数据挖掘技术的高级应用。它是多个领域的研究人员感兴趣的领域,例如人工智能、机器学习、模式识别、数据库、统计、专业系统的知识获取和数据可视化。

知识发现过程是迭代和交互的,包括九个步骤。该过程在每个阶段都是迭代的,这意味着可能需要转换回之前的操作。该过程有几种富有想象力的方法,因为人们无法为每个步骤和应用程序类型的正确决策提供一个公式或创建一个完整的科学分类。因此,需要了解流程以及每个阶段的多重要求和可能性。

  • 发展理解- 这是基本的初步步骤。它创建了一个场景,用于学习应该如何处理转换、算法、表示等几个决策。负责 KDD 企业的个人需要学习和描述最终用户的目标和环境的特征。其中知识发现过程会出现(涉及相关的先验知识)。

  • 创建目标数据集- 它可以选择一个数据集或针对变量或数据样本的子集,在其上实施发现。这个过程是必不可少的,因为数据挖掘从可访问的数据中学习和发现。这是构建模型的证据基础。如果缺少一些重要的属性,那么从这方面来说,整个研究可能是不成功的,考虑的属性越多。

  • 数据清理和预处理- 数据清理定义通过填充缺失值、平滑噪声数据、识别和消除异常值以及消除数据中的不一致来清理数据。

  • 探索性分析和模型和假设选择- 可以选择数据挖掘algorithm(s)并选择method(s)用于搜索数据模式。这个过程包括决定哪些模型和参数是合适的,并将特定的数据挖掘方法与 KDD 过程的长期标准相匹配。

  • 数据挖掘- 用于搜索特定表示形式或一组此类表示中的感兴趣模式,涉及分类规则或树、回归和聚类。用户可以通过正确执行前面的步骤来显着帮助数据挖掘方法。

  • 对发现的知识采取行动 - 它直接使用知识,将知识包含到另一个系统中以进行额外的操作,或者只是记录它并将其报告给感兴趣的各方。此过程还包含检查和解决与先前接受(或提取)知识的潜在冲突。