scikit-learn 接口和约定:

示例

使用特殊类对数据进行不同的操作。

大多数类属于以下组之一:

  • 分类算法(源自sklearn.base.ClassifierMixin)来解决分类问题

  • 回归算法(源自sklearn.base.RegressorMixin)来解决重建连续变量的问题(回归问题)

  • sklearn.base.TransformerMixin预处理数据的数据转换(源自)

数据存储在numpy.arrays中(但如果其他类似数组的对象(如pandas.DataFrames可以转换为numpy.arrays,则可以接受))

数据中的每个对象都由一组功能描述,通常的约定是用数组表示数据样本,其中第一维是数据样本ID,第二维是特征ID。

import numpy
data = numpy.arange(10).reshape(5, 2)
print(data)

Output:
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]

按照sklearn惯例,以上数据集包含5个对象,每个对象由2个要素描述。