使用特殊类对数据进行不同的操作。
大多数类属于以下组之一:
分类算法(源自sklearn.base.ClassifierMixin)来解决分类问题
回归算法(源自sklearn.base.RegressorMixin)来解决重建连续变量的问题(回归问题)
sklearn.base.TransformerMixin预处理数据的数据转换(源自)
数据存储在numpy.arrays中(但如果其他类似数组的对象(如pandas.DataFrames可以转换为numpy.arrays,则可以接受))
数据中的每个对象都由一组功能描述,通常的约定是用数组表示数据样本,其中第一维是数据样本ID,第二维是特征ID。
import numpy data = numpy.arange(10).reshape(5, 2) print(data) Output: [[0 1] [2 3] [4 5] [6 7] [8 9]]
按照sklearn惯例,以上数据集包含5个对象,每个对象由2个要素描述。