如何通俗易懂地讲解什么是 PCA(主成分分析)?
你手边有眼镜盒,纸箱子,笔记本电脑,或者随便什么长方体的东西吗?要描述它的尺寸我们需要知道三个数据,长宽高(或者长宽厚),对吧
现在,假如是个笔记本电脑,你想买个包能装下它,你最关心的数据是什么呢?长和宽对不对?如果一个书包不是太浅或者太窄,就能装下那个电脑,电脑的厚度在这个问题上会被忽略掉
电脑的长就是这个秩为3的矩阵的第一个主成分,宽就是第二个,厚是第三个,在上述问题里,为了不让卖电脑包的小姐姐觉得你傻,你没有问她那我电脑2厘米厚这个包能不能装下,你就只想保留两个主成分,也就是把维度降到二。
现在我们来推广一下,假如你想买个包来装一个不规则的物体,比如,啊好难想,比如一把羽毛球拍。羽毛球拍也是一个3D立体的物体,也可以用长宽厚来描述,在装包的过程中你关心的也必然只是长和宽,也就是说你还是想降维。但是羽毛球拍的形状并不是一个简单的长方体,找到它的长宽厚这三个主成分需要把它向一个长方体,或者说一个三维直角坐标系投影———你需要量最长的长和最宽位置的宽。投影完事儿后,球拍优美的弧线就都被抽象掉啦,就剩一个长宽厚的架子,相互垂直,这个过程就是所谓的奇异值分解(singular value decomposition),抽象出来的那个架子就是中间的奇异值矩阵,主对角线以外的元素(那些圆弧)都是0,然后你把最小的奇异值去除掉,也就是厚度,你就实现了一次降维,可以就拿两个数跟卖包小姐姐愉快的交流了!
最后说一点奇异值这个名字。singularity 是奇点的意思,你可以想象是质量无穷大,怎么也消不掉的点。对于任何3D的物体而言,永远都有长宽高,所以永远都有3个奇点。如果一个奇点没了,一个维度就会垮掉,比如没有了厚度,它就变成2D的了。你之所以想对羽毛球拍降维,是因为第三个维度微不足道,前两个维度可以很好的近似它:
试问,一个小朋友画羽毛球拍简笔画时,是不是往往不画厚度
最后多句嘴,从奇点这个名字你就能看出来,彻底消灭掉一个物体的维度有多么难,二向箔赛高!