如何在Python中使用scikit-learn库从特征向量中消除均值?

预处理数据是指清除数据,删除无效数据,噪声,用相关值替换数据等。

数据预处理基本上是指将所有数据(从各种资源或单个资源收集的数据)收集为通用格式或统一数据集(取决于数据类型)的任务。一步的输出将成为下一步的输入,依此类推。

可能必须从输入数据中除去平均值才能获得特定结果。让我们了解如何使用scikit-learn库实现它。

示例

import numpy as np
from sklearn import preprocessing
input_data = np.array([
[34.78, 31.9, -65.5],
[-16.5, 2.45, -83.5],
[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
print("平均值是: ", input_data.mean(axis=0))
print("标准偏差值为: ", input_data.std(axis=0))
data_scaled = preprocessing.scale(input_data)
print("均值已被删除 ", data_scaled.mean(axis=0))
print("标准偏差已删除 ", data_scaled.std(axis=0))
输出结果
平均值是: [ 6.17 -12.8125 -39.8 ]
标准偏差值为: [18.4708067 45.03642047 50.30754615]
均值已被删除 [-2.60208521e-18 -8.32667268e-17 -1.11022302e-16]
标准偏差已删除 [1. 1. 1.]

说明

  • 所需的软件包已导入。

  • 输入数据是使用Numpy库生成的。

  • 计算平均值和标准偏差值。

  • 它们显示在控制台上。

  • “ data_scaled”函数用于从数据中删除平均值和标准偏差值。

  • 除去的均值和标准差数据将显示在控制台上。