机器学习从业者面临的各种挑战是什么?

尽管机器学习发展迅速,但仍有很长的路要走。这背后的原因是机器学习从业者在开发应用程序时面临的各种挑战。让我们来看看这些挑战 -

  • 数据收集- 数据在开发任何机器学习应用程序中起着最重要的作用。ML 从业者的大部分工作在于收集高质量的数据。如果您是初学者并想尝试机器学习,您可以从 Kaggle 或 UCI ML Repository 中找到数据集。但是如果你想实现真实的案例场景或需要解决业务问题,你需要通过网络抓取或从客户端收集数据。收集后,应将数据结构化并存储在数据库中。为此,机器学习从业者需要额外的大数据知识。

  • 训练数据质量- 收集数据后,机器学习工程师需要做两件事。一种是为机器学习项目选择合适的学习算法,另一种是使用一些获取的数据来训练模型。这里最大的挑战是选择高质量的训练数据。训练数据的质量很重要,因为使用低质量数据会导致与数据预处理和特征提取相关的问题。

  • Non-representative training data - 训练数据应该具有代表性,即它也应该对新案例(将要发生的案例)很好地概括。寻找有代表性的训练数据对每个 ML 从业者来说都是一个严峻的挑战,因为使用非代表性的训练数据会导致错误的预测。

  • 选择相关特征- 如果我们使用包含大量不相关特征的训练数据,我们的 ML 模型将永远不会给出预期的结果。特征选择,即为 ML 项目的成功选择好的特征,是 ML 从业者应该克服的重要方面之一,也是另一个关键挑战。

  • 过拟合和欠拟合训练数据- 当 ML 模型在训练数据中提取噪声并将其作为概念学习时,就会发生过拟合问题。而顾名思义,欠拟合的问题发生在它既不对训练数据建模也没有推广到新数据时。ML 从业者的目标应该是在欠拟合和过拟合之间的最佳位置选择模型。

  • 模型部署- 许多 ML 从业者面临的另一个最大挑战是成功部署他们的 ML 应用程序。这可能是由于依赖问题、对业务问题或底层模型的理解不足、ML 模型不稳定等。