什么是数据清洗?

数据清洗定义了通过填充缺失值、平滑噪声数据、分析和去除异常值以及去除数据中的不一致来清洗数据。有时多个详细级别的数据可能与所需的数据不同,例如,它可能需要 20-30、30-40、40-50 的年龄范围,并且导入的数据包括出生日期。可以通过将数据拆分为适当的类型来清理数据。

数据清洗的类型

有各种类型的数据清理如下 -

  • 缺失值- 缺失值填充了适当的值。有以下方法来填充值。

    • 当元组包含多个缺失值的属性时,它会被忽略。

    • 手动填充缺失值的值。

    • 相同的全局常量可以填充这些值。

    • 属性均值可以填补缺失值。

    • 最可能的值可以填补缺失值。

  • 噪声数据- 噪声是测量变量中的随机误差或方差。有以下平滑方法来处理噪声,如下所示 -

    • Binning - 这些方法通过查询其“邻域”来平滑排列数据值,尤其是噪声信息周围的值。排列的值分布到多个桶或箱中。因为分箱方法会参考值的邻域,所以它们实现了局部平滑。

    • 回归- 可以通过将信息拟合到函数来平滑数据,包括回归。线性回归包含找到适合两个属性(或变量)的“最佳”线,以便一个属性可用于预测另一个。多元线性回归是线性回归的发展,其中包含两个以上的属性并且数据适合多维区域。

    • 聚类- 聚类支持识别异常值。相同的值被组织成集群,那些落在集群之外的值被称为异常值。

    • 结合计算机和人工检查- 在计算机和人工检查的支持下也可以识别异常值。异常值模式可以是描述性的,也可以是垃圾。具有惊人价值的模式可以输出到列表中。

  • 不一致数据- 不一致可以记录在各种事务中,在数据输入期间,或由于集成来自多个数据库的信息而引起。一些冗余可以通过相关分析来识别。准确和适当地整合来自各种来源的数据可以减少和避免冗余。