解释Python中scikit-learn库的基础？

Scikit-learn，通常称为sklearn，是Python中的一个库，用于实现机器学习算法。

这是一个开源库，因此可以免费使用。强大而强大，因为它提供了多种工具来执行统计建模。在Python强大而稳定的界面的帮助下，这包括分类，回归，聚类，降维等等。该库基于Numpy，SciPy和Matplotlib库构建。

可以使用'pip'命令安装它，如下所示-

pip install scikit-learn

该库专注于数据建模。

scikit-learn中使用了许多模型，下面总结了其中的一些模型。

监督学习算法

指导学习算法以某种方式表现。某个所需的输出映射到给定的输入，从而提供人工监督。这可以通过标记特征（输入数据集中存在的变量），提供对数据的反馈（算法是否正确预测了输出，如果不是，则必须进行正确的预测）等等。

一旦对此类输入数据进行了完整的算法训练，就可以将其推广到适用于相似种类的数据。如果所训练的模型具有良好的性能指标，则它将具有预测从未见过的输入的结果的能力。这是一种昂贵的学习算法，因为人类需要对输入数据集进行物理标记，从而增加了额外的成本。

Sklearn帮助实现线性回归支持向量机，决策树等。

这与有监督的学习相反，即，未标记输入数据集，从而表示人员监督为零。该算法从此类未标记的数据中学习，提取模式，执行预测，深入了解数据并自行执行其他操作。在大多数情况下，现实世界的数据是非结构化的且未标记的。

Sklearn帮助实现聚类，因子分析，主成分分析，神经网络等。

相似的数据被分组为一个结构，并且任何噪声（异常数据或异常数据）都将落入该群集之外，以后可以将其消除或忽略。

在此过程中，原始数据集分为两个部分：“训练数据集”和“测试数据集”。使用交叉验证时，无需“验证数据集”。“交叉验证”方法有多种变体。最常用的交叉验证方法是“ k”倍交叉验证。

降维说明了用于减少数据集中要素数量的技术。如果数据集中的特征数量较多，则通常很难对算法进行建模。如果输入数据集的变量太多，则机器学习算法的性能可能会下降很多。

在要素空间中拥有大量尺寸需要大量内存，这意味着并非所有数据都可以在空间（数据行）上适当地表示。这意味着，机器学习算法的性能将受到影响，这也被称为“维数诅咒”。因此，建议减少数据集中输入要素的数量。因此，名称为“降维”。

基础教程