解释Python中scikit-learn库的基础?

Scikit-learn,通常称为sklearn,是Python中的一个库,用于实现机器学习算法。

这是一个开源库,因此可以免费使用。强大而强大,因为它提供了多种工具来执行统计建模。在Python强大而稳定的界面的帮助下,这包括分类,回归,聚类,降维等等。该库基于Numpy,SciPy和Matplotlib库构建。

可以使用'pip'命令安装它,如下所示-

pip install scikit-learn

该库专注于数据建模。

scikit-learn中使用了许多模型,下面总结了其中的一些模型。

监督学习算法

指导学习算法以某种方式表现。某个所需的输出映射到给定的输入,从而提供人工监督。这可以通过标记特征(输入数据集中存在的变量),提供对数据的反馈(算法是否正确预测了输出,如果不是,则必须进行正确的预测)等等。

一旦对此类输入数据进行了完整的算法训练,就可以将其推广到适用于相似种类的数据。如果所训练的模型具有良好的性能指标,则它将具有预测从未见过的输入的结果的能力。这是一种昂贵的学习算法,因为人类需要对输入数据集进行物理标记,从而增加了额外的成本。

Sklearn帮助实现线性回归支持向量机,决策树等。

非监督式学习

这与有监督的学习相反,即,未标记输入数据集,从而表示人员监督为零。该算法从此类未标记的数据中学习,提取模式,执行预测,深入了解数据并自行执行其他操作。在大多数情况下,现实世界的数据是非结构化的且未标记的。

Sklearn帮助实现聚类,因子分析,主成分分析,神经网络等。

聚类

相似的数据被分组为一个结构,并且任何噪声(异常数据或异常数据)都将落入该群集之外,以后可以将其消除或忽略。

交叉验证

在此过程中,原始数据集分为两个部分:“训练数据集”和“测试数据集”。使用交叉验证时,无需“验证数据集”。“交叉验证”方法有多种变体。最常用的交叉验证方法是“ k”倍交叉验证。

降维

降维说明了用于减少数据集中要素数量的技术。如果数据集中的特征数量较多,则通常很难对算法进行建模。如果输入数据集的变量太多,则机器学习算法的性能可能会下降很多。

在要素空间中拥有大量尺寸需要大量内存,这意味着并非所有数据都可以在空间(数据行)上适当地表示。这意味着,机器学习算法的性能将受到影响,这也被称为“维数诅咒”。因此,建议减少数据集中输入要素的数量。因此,名称为“降维”。