主成分分析是一种无监督学习算法,用于机器学习中的降维。它是一个统计过程,在正交数据的支持下,将相关特征的观察结果转化为线性不相关特征的集合。这些新的转换特征称为主成分。
它是用于探索性数据分析和预测建模的著名工具。它是一种通过减少方差从给定数据集绘制强大设计的方法。
PCA 通过处理每个属性的方差来工作,因为高属性显示了类之间的划分,因此它降低了维度。PCA 的一些实际应用是图像处理、电影推荐系统、优化各种通信渠道中的功率分配。它是一种特征提取方法,因此它包括重要的变量并丢弃最不重要的变量。
主成分分析也称为 Karhunen-Loeve 或 KL 方法。它可以搜索最能用来表示数据的 k 个 n 维正交向量,其中 k ≤ n。原始数据被投影到一个更小的区域上,从而导致降维。它通过创建一组替代的较小变量来连接属性的本质。然后可以将初始数据投影到这个较小的集合上。
PCA中使用的步骤如下 -
输入数据被归一化,以便每个属性都落在相似的范围内。此步骤有助于确保具有大域的属性不会支配具有较小域的属性。
PCA 评估支持归一化输入数据基础的 k 个正交向量。这些是单位向量,每个向量都指向与其他方向垂直的方向。这些向量被定义为主成分。输入数据是主成分的线性集。
主要成分按“显着性”或强度递减的顺序排列。主成分本质上用作数据的一组新轴,提供有关方差的重要信息。也就是说,排序的轴是这样的,第一个轴显示数据中最大的方差,第二个轴显示次高的方差,依此类推。
因为成分是按照“显着性”的降序排列的,所以可以通过去除较弱的成分,即方差较小的成分来减少数据的大小。使用最强的主成分,应该可以重建原始数据的良好近似。