主成分分析

假设有一组二维数据点,对应的数据矩阵为

  • 数据矩阵中心化

质心的位置为

将数据中心化(去均值)

  • 协方差矩阵

如果不同特征的标准差差异过大,需要先对数据标准化,不再依赖原本的度量单位。

经过标准化处理后,数据均值变为 ,标准差变为 .

协方差矩阵的主对角线为方差 ,非对角线元素为协方差

线性相关系数为

线性相关性系数矩阵为

每个元素表示两个特征之间的相关性 ,对角线上恒为 1,表示和自身完全正相关。


从正交投影的角度看, 方向的投影 的方差为

的协方差为


将线性相关性系数矩阵进行特征分解,得到

在特征向量 方向的投影为

的方差为

正交投影得到

特征值越大,表示该方向上数据的方差越大,信息越丰富(椭圆/球越长)。

把数据看作一个旋转的椭圆,主成分分析就是找到合适的方向将椭圆摆正。

  • 近似还原

如果仅用第一主元信息还原 ,对应的运算为

误差为

然后用 近似还原 ,进一步缩放和平移

类似地,用前两个主元信息还原 ,对应的运算为

参考资料

Visualize-ML/Linear-Algebra-Made-Easy---Learn-with-Python-and-Visualization