Python 中为 ML 项目加载 CSV 数据的各种方法

要成功构建机器学习项目,正确加载数据是最重要也是最具挑战性的任务之一。CSV 是机器学习项目最常用的格式。它是一种用于存储表格数据的简单格式。

以下是 Python 中三种最常见的方法,您可以借助它们为机器学习项目加载 CSV 数据 -

使用 Python 标准库

为了加载 CSV 数据文件,Python 标准库为我们提供了一个内置函数,即csv 模块

例子

在这个例子中,我们将加载鸢尾花数据集的 CSV 数据文件 -

#导入 csv 模块
import csv

#要将数据转换为 NumPy 数组,请导入 numpy 模块:
import numpy as np

#提供存储在我们本地目录中的 CSV 数据文件的完整路径:

datafile_path = r"c:/Users/ Desktop/iris.csv"

# 使用 csv.reader() 函数读取数据:

with open(datafile_path,'r') as f:
reader = csv.reader(f,delimiter = ',')
data_headers = next(reader)
data = list(reader)
data = np.array(data).astype(float)

#打印数据标题的名称和数据文件的前 5 行:
print(data_headers)
print(data[:5])

输出

['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
[
  [5.1 3.5 1.4 0.2]
  [4.9 3.  1.4 0.2]
  [4.7 3.2 1.3 0.2]
  [4.6 3.1 1.5 0.2]
  [5.  3.6 1.4 0.2]
]

使用熊猫

我们可以用来加载 CSV 数据文件的另一种方法是函数。此函数将返回一个可立即用于绘图的pandas.DataFramepandas.read_csv()

例子

在这个例子中,我们将加载皮马印第安人数据集的 CSV 数据文件 -

#从 Pandas 导入 read_csv 函数
from pandas import read_csv

#提供存储在我们本地目录中的 CSV 数据文件的完整路径:
datafile_path = r"C:/Users/Leekha/Desktop/pima-indians-diabetes.csv"

#使用 read_csv() 函数提供标题名称和读取数据:
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(datafile_path, names=headernames)

#打印文件中的行数和列数以及数据文件的前 5 行:
print(data.shape)
print(data[:5])

输出

(768, 9)
  preg plas pres  skin test  mass  pedi  age  class
0   6   148   72   35    0   33.6  0.627  50     1
1   1    85   66   29    0   26.6  0.351  31     0
2   8   183   64    0    0   23.3  0.672  32     1
3   1    89   66   23   94   28.1  0.167  21     0
4   0   137   40   35  168   43.1  2.288  33     1