机器学习和生物信息学实验室联盟
标题:
PCA彻头彻尾的解释分析
[打印本页]
作者:
wangjingjing
时间:
2015-10-6 21:15
标题:
PCA彻头彻尾的解释分析
本帖最后由 wangjingjing 于 2015-10-6 21:20 编辑
实现PCA的主要流程:
假设数据矩阵是m×n维的,m是样本数,n是特征的维度,目标是对数据进行降维,使其变成m×k维, k <<n。
1. 特征中心化。即每一维的数据都减去该维的均值。这里的“维”指的就是一个特征(或属性),变换之后每一维的均值都变成了0,记这个矩阵为\( B_{mn} \) .
2. 计算B的协方差矩阵\( C_{nn} = 1/m B^TB \);
3. 计算协方差矩阵C的特征值和特征向量;
4. 选取大的特征值对应的特征向量组成特征矩阵\( D_{nk} \),\( E_{mk} = B_{mn}D_{nk} \)得到新的降维后的数据集。
http://www.cnblogs.com/haore147/p/3640464.html
这篇博客从映射的角度一步步解释了PCA算法的基本原理。
对向量内积,矩阵,基,方差,协方差这些比较抽象的概念都从映射的角度对它们进行解释,赋予它们几何意义,理解起来就有条有理了。
作者:
zouquan
时间:
2015-10-6 21:28
太赞了!我先去看看那个链接,貌似写的挺好。
PCA看来是没有用到类别标签的信息,并且没有给出哪些特征重要,而是对特征加了权重变换出新的特征。
而mRMR是用了类别标签,没有对特征进行组合,只是rank出哪些特征重要,哪些是噪声。
作者:
wangjingjing
时间:
2015-10-6 22:20
zouquan 发表于 2015-10-6 21:28
太赞了!我先去看看那个链接,貌似写的挺好。
嗯,找到很多PCA的介绍,都只是讲了算法流程,并没有对底层原理做出解释,这个博客讲得很好,有理有据,一气呵成,看了之后都明白了。
PCA 不是从已有的特征里面选择出某些重要的特征,它通过找出方差最大并且两两之间互相正交的基,把原来的样本在新的基上做变换,生成新的特征,在这个层面上对数据进行了降维。
mRMR没听过
,学习一下
作者:
xmubingo
时间:
2015-10-10 13:34
算法不给代码——没图说个XX
欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/)
Powered by Discuz! X3.2