有以下预处理步骤可用于数据,以促进分类或预测阶段的准确性、有效性和可扩展性,如下所示 -
数据清理- 这定义了数据的预处理以通过使用平滑方法和缺失值的操作来消除或减少噪声(例如,通过使用该属性最普遍出现的值或最佳可能值恢复缺失值建立在统计上)。尽管各种分类算法都有一些用于管理嘈杂或缺失信息的结构,但这一步可以帮助减少学习过程中的混淆。
相关性分析- 数据中有各种与分类或预测任务无关的属性。例如,记录银行贷款软件在星期几的数据不太可能与软件的成功相关。此外,一些不同的属性可能是多余的。
因此,可以对数据进行相关性分析,从学习过程中删除一些不相关或冗余的属性。在机器学习中,这一步被称为特征选择。它包含这样的属性,否则可能会减慢速度,并可能误导学习步骤。
正确地,相关性分析所用的时间,当插入到从结果“减少”的特征子集学习所用的时间时,必须小于从初始特征集学习所用的时间。因此,此类分析有助于提高分类有效性和可扩展性。
数据转换- 数据可以推广到更大级别的方法。概念层次结构可用于实现这些目标。这对于连续值属性特别有用。例如,属性收入的数学值可以推广到离散领域,包括低、中和高。同样,名义值属性(例如街道)可以推广到更大级别的概念,例如城市。
因为泛化缩短了初始训练数据,所以在学习过程中可以包含更少的输入/输出操作。数据也可以归一化,尤其是在学习步骤中使用包含距离测量的神经网络或技术时。
标准化包括缩放给定属性的所有值,以便它们在一个小的指定区域内下降,包括 -1.0 到 1.0,或 0 到 1.0。例如,在这些应用距离测量的方法中,这可以避免原本具有高范围的属性(例如收入)来自