机器学习和生物信息学实验室联盟

标题: 请问有啥方法对数据进行特征选择,并且对特征进行重要性排序 [打印本页]

作者: endual    时间: 2012-9-10 20:06
标题: 请问有啥方法对数据进行特征选择,并且对特征进行重要性排序
大家好,我是外来人口,很高兴认识大家。
我最近的论文要用到特征选择,请问 啥方法对数据进行特征选择,并且对特征进行重要性排序 。
大家帮想想哦。
作者: Genie    时间: 2012-9-11 09:52
应该是降维吧,PCA可以试下吧,weka里面就有。好像weka里面也有一些其他的特征处理方法吧
作者: endual    时间: 2012-9-11 10:40
Genie 发表于 2012-9-11 09:52
应该是降维吧,PCA可以试下吧,weka里面就有。好像weka里面也有一些其他的特征处理方法吧

1.是降维,我的数据只有18个特征,这些特征都是比较重要的。
但他们的重要性也有轻和重之分,我的目的就是想对他们进行排名。

2.weka没有用过主成分分析。最关键的是想对属性进行排名,
因为我想对排名后的属性进行操作。

多谢指导,我看下。
作者: zouy1216    时间: 2012-9-12 09:15
你好,可以用weka的PCA,对降维的结果进行处理的方法可以参考这两篇论文
Maria C. Uyarra, Isabelle M. C & Ocirc. Island-specific preferences of tourists for environmental features: implications of climate change for tourism-dependent states. Environmental Conservation, Volume 32, Issue 01, March 2005, pp 11 – 19.
William R. Dillon, Narendra Mulani, Donald G. Frederick. On the use of component scores in the presence of group structure. Journal of Consumer Research, Vol. 16, No. 1 (Jun., 1989), pp. 106-112.
不过处理的过程不侧重属性的排名而是对特征意义的归类和分析,比较适用于维数较少的数据。希望对你有帮助:)
作者: tangzk    时间: 2012-9-13 09:05
上个实验室的网站还要翻墙,唉!
关于特征重要性的度量,有两种方法:
1、查看残差的增量:通过移除一个变量后,查看前后残差的增量来衡量,可用公式如下,
F_j = (RSS_j - RSS_0) / (RSS_0 / (n-p))
RSS_j为去除变量j后的残差,RSS_0为原始残差,这样分子就是前后残差的增量,n为样本数,p为特征总数,分母就是噪声的方差
这种方法也可适用于一组变量的重要性衡量,还可以应用于online learning
2、利用统计中的假设检验方法,定义第j个变量的z-score服从t(n-p)分布,然后利用p-value来解释结果。
我认为PCA方法,可以保留原始特征中的主要因子,变换其线性空间降维处理,即会形成原始特征的线性组合,这是常说的特征提取,其选取后的特征并非是原始特征的子集,后者是指特征选择。使用PCA方法,得到结果之后,可以考虑把线性组合后的结果反向解释原始变量重要性。
作者: endual    时间: 2012-9-23 20:19
多谢各位的帮助
作者: Ibelieve    时间: 2012-9-25 12:38
如果只是想排序的话推荐可以用mRMR的方法,详见:http://penglab.janelia.org/proj/mRMR/#matlab
作者: xmubingo    时间: 2012-9-25 15:14
Ibelieve 发表于 2012-9-25 12:38
如果只是想排序的话推荐可以用mRMR的方法,详见:http://penglab.janelia.org/proj/mRMR/#matlab

好东西~~
作者: endual    时间: 2012-10-4 18:57
多谢,已经通过PCA进行实验,效果还行和想的那样有点接近,
可以用了。




欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2