机器学习和生物信息学实验室联盟

标题: 基因表达数据分类聚类相关资料(持续更新) [打印本页]

作者: AmBeta    时间: 2013-1-30 17:55
标题: 基因表达数据分类聚类相关资料(持续更新)
注意:本帖禁止灌水回复!所有附件仅供内部成员下载和学习交流


数据集:

、国内外生物信息学引用较为广泛的癌症数据集

来源:http://www.gems-system.org/
内容:
[attach]1222[/attach]
说明:这个网站提供的数据是MATLAB矩阵格式的,需要使用MATLAB将其转换为表格格式——使用csvwrite('filename',matrixname)命令即可,然后再用weka自带的功能将其转换为weka可以直接使用的.arff格式即可。要注意到得到的表格格式文件需要自行添加属性名,也就是属性序号。我已经做了这些数据的转换,有需要的可以直接向我索要咯~
作者: zouquan    时间: 2013-3-31 14:29
http://www.oncomir.umn.edu/

这个收集了microRNA的表达谱数据
作者: zouquan    时间: 2013-4-17 03:17
http://www.cs.utexas.edu/users/dml/Software/cocluster.html

一个双聚类软件(也可以用来做单聚类),可用。已安装在70服务器/home/zouquan/geneexpress目录下

注意事项:输入数据的第一行要写上多少行、多少列,用空格隔开,比如:(test.txt)
6 6
54 54 42 0 0 0
54 54 42 0 0 0
0 0 0 42 54 54
0 0 0 42 54 54
36 36 28 28 36 36
36 36 28 28 36 36

运行命令:./Cocluster- -A e -C 3 -R 3 -E 1 -I d t test.txt -O c b 1 o output.txt

输出结果每3行是一组聚类

第一行是几乘几

第二行和第三行分别是行标和列标

参考文献:
Co-clustering of Human Cancer Microarrays using Minimum Sum-Squared Residue Co-clustering, H. Cho and I.S. Dhillon, IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), vol. 5:3, pages 385-400, July 2008.

作者: zouquan    时间: 2013-4-20 22:47
http://www.eisenlab.org/EisenData.htm
主要是酵母的基因表达数据
参考文献:郎显宇,陆忠华,迟学斌.一种基于“基因表达谱”的并行聚类算法.计算机学报.2007,30(2):311-316
作者: zouquan    时间: 2013-4-25 22:39
deep learning 代码,见http://datamining.xmu.edu.cn/bbs ... wthread&tid=893
作者: aaronwxb    时间: 2013-4-26 21:17
特征选择方法——Rankgene

资料链接:http://genomics10.bu.edu/yangsu/rankgene/  (从网页上下载的源码有错,rankgene-1.1.tar.gz解压后需修改一下,文件/rankgene-1.1/load_genes.C第443行回退一行)

环境要求:
Supported operating systems and compilers
Operating System                     Compiler
Linux (Redhat 7.2/7.3)        gcc 2.96
Linux (Redhat 8.0)                       gcc 3.2

测试环境:gcc version 4.3.0 20080428 (Red Hat 4.3.0-8) (GCC)     OK

运行步骤:
1.准备
  $ gunzip rankgene-1.1.tar.gz

   $ tar -xvf rankgene-1.1.tar

   $ cd rankgene-1.1

   $ make

2.数据
标准格式(以源代码中测试数据为例):
all-aml.txt    基因表达矩阵(所有数据用tab分隔)
Gene Description        Gene Accession Number        样本名1   样本名2 ...
基因1的名字    基因1的编号   表达值1 表达值2...
基因2的名字    基因2的编号   表达值1 表达值2...
...
all-aml-class.txt   
样本名、类名,用tab隔开

3.运行
./rankgene -m 7 -n 100 -o data/gene.list -i data/all-aml.txt -c data/all-aml-class.txt

参考文献:Y. Su, T.M. Murali, V. Pavlovic, and S. Kasif, “Rankgene:Identification of Diagnostic Genes Based on Expression Data,”
Bioinformatics, http://genomics10.bu.edu/yangsu/rankgene/,2003.
作者: aaronwxb    时间: 2013-4-26 21:19
aaronwxb 发表于 2013-4-26 21:17
特征选择方法——Rankgene

资料链接:http://genomics10.bu.edu/yangsu/rankgene/  (从网页上下载的源码 ...

sorry,忘传附件了~
该版本已修复源代码bug,运行结构在文件/data/gene.list 中
作者: aaronwxb    时间: 2013-4-26 21:37
特征选择方法——mRMR

在线资料:http://penglab.janelia.org/proj/mRMR/

windows32位版运行,从dos界面到目录下直接用命令运行

参考论文:H. Peng, F. Long, and C. Ding, “Feature Selection Based on Mutual Information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 27, no. 8, pp. 1226-1238, Aug. 2005.
作者: 廖原路    时间: 2013-4-27 15:51
李涛特征选择的实验数据

ALL     http://www.stjuderesearch.org/data/ALL1/
MLL    http://research.dfci.harvard.edu/korsmeyer/MLL.htm
SRBCT     http://research.nhgri.nih.gov/microarray/Supplement/

NCI60    http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS1761
由于数据太大,不能够上传,需要修改后规范数据的同学,请于我联系

yuanluliao@foxmail.com


数据已经上传到服务器59.77.16.75。
/home/share/数据/生物信息学数据/基因表达数据 目录下,大家可以去那下载
作者: zouquan    时间: 2013-5-9 22:50
http://datamining.xmu.edu.cn/software/cluster_related/

聚类的相关代码使用方法,均已布置在66服务器上。

感谢@chenwq 的辛苦整理

http://datamining.xmu.edu.cn/bbs ... wthread&tid=886
作者: zouquan    时间: 2013-6-3 14:07
有待整理,但可用的数据
http://perso.telecom-paristech.fr/~gfort/GLM/Programs.html
http://llmpp.nih.gov/lymphoma/data/rawdata/
http://www.cancerinstitute.org.a ... ogy-groups/melanoma
http://www.ihes.fr/~zinovyev/princmanif2006/
作者: zouquan    时间: 2013-6-3 22:27
http://bib.oxfordjournals.org/content/14/3/279.full.pdf+html
biclustering综述
Briefings in Bioinformatics 2013最新论文
作者: zjcdm    时间: 2013-11-12 18:42
声明:本帖只是对mRNA特征选择程序的使用进行介绍,没有对原理方法深究。
出处链接: http://penglab.janelia.org/proj/mRMR/
1、输入文件格式要求:
        程序的输入文件格式必须是CSV文件。
2、输入内容的格式要求:
        CSV文件的内容形式是第一行是以类别特征开始的特征变量名,特征变量名之间用 “,” 隔开,不能有其它的字符。下面每一行都是对应特征变量名的特征值一样用逗号隔开。
        !!!注意的是,特征变量的第一个必须是类别(就是你的分类的标号),这跟我们平常arff文件的习惯不一样。
         例子: http://penglab.janelia.org/proj/mRMR/test_lung_s3.csv
3、该特征选择方法提供在线版本,但是有所限制,文件大小不能超过2M,特征变量的个数不能超过10000,选择的特征不能超过200。如果受限的话自己下作者源程序使用。
4、这里介绍作者提供的C++版本的程序的使用。
     命令是:./mrmr -i input.csv -t thresholds -n fea_num -m method -s max_example -v max_variables
     解释:input.csv是出入的文件。           
               thresholds默认是9999,这个变量的作用是类似定义一个区间,在该区间里面的例子得分是一样的。
               fea_num是要选择特征的个数,作者的程序设置为最多是500。要注意如果没有改作者的程序的话如果运行程序的fea_num大于500全部设置为500。如果需要增加特征个数,要改mrmr.cpp文件,将文件中874和875行注释掉,然后将951行的poolFeaIndMax改为nfea,这样重新编译之后,就可以随意设置选择要选择的特征个数。(编译方法见下面)
               method的值只有两种"MID"和“MIQ”。
               max_example是文件例子的最大值,默认是1000。
               max_variables是特征变量的最大个数,默认是10000.
5、如果有自己改程序,就要重新编译。确定自己机器有C++编译器后,用下面的命令:
      make -f  mrmr.makefile clean
      make -f mrmr.makefile
      然后就可以用命令(见4) ./mrmr ......运行了

     如果有什么不对或者不足的地方,欢迎各位补充和指正。谢谢。




欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2