主成分分析
主成分分析
假设有一组二维数据点,对应的数据矩阵为
- 数据矩阵中心化
质心的位置为
将数据中心化(去均值)
- 协方差矩阵
如果不同特征的标准差差异过大,需要先对数据标准化,不再依赖原本的度量单位。
经过标准化处理后,数据均值变为
,标准差变为 .
协方差矩阵的主对角线为方差
线性相关系数为
线性相关性系数矩阵为
每个元素表示两个特征之间的相关性
从正交投影的角度看,
将线性相关性系数矩阵进行特征分解,得到
则
特征值越大,表示该方向上数据的方差越大,信息越丰富(椭圆/球越长)。
把数据看作一个旋转的椭圆,主成分分析就是找到合适的方向将椭圆摆正。
- 近似还原
如果仅用第一主元信息还原
误差为
然后用
类似地,用前两个主元信息还原
参考资料
Visualize-ML/Linear-Algebra-Made-Easy---Learn-with-Python-and-Visualization
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 科海拾零!
评论