机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 7716|回复: 12
打印 上一主题 下一主题

基因表达数据分类聚类相关资料(持续更新)

[复制链接]
跳转到指定楼层
楼主
发表于 2013-1-30 17:55:43 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
注意:本帖禁止灌水回复!所有附件仅供内部成员下载和学习交流


数据集:

、国内外生物信息学引用较为广泛的癌症数据集

来源:http://www.gems-system.org/
内容:

说明:这个网站提供的数据是MATLAB矩阵格式的,需要使用MATLAB将其转换为表格格式——使用csvwrite('filename',matrixname)命令即可,然后再用weka自带的功能将其转换为weka可以直接使用的.arff格式即可。要注意到得到的表格格式文件需要自行添加属性名,也就是属性序号。我已经做了这些数据的转换,有需要的可以直接向我索要咯~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏2 转播转播 分享分享
回复

使用道具 举报

沙发
发表于 2013-3-31 14:29:29 | 只看该作者
http://www.oncomir.umn.edu/

这个收集了microRNA的表达谱数据
回复 支持 反对

使用道具 举报

板凳
发表于 2013-4-17 03:17:52 | 只看该作者
http://www.cs.utexas.edu/users/dml/Software/cocluster.html

一个双聚类软件(也可以用来做单聚类),可用。已安装在70服务器/home/zouquan/geneexpress目录下

注意事项:输入数据的第一行要写上多少行、多少列,用空格隔开,比如:(test.txt)
6 6
54 54 42 0 0 0
54 54 42 0 0 0
0 0 0 42 54 54
0 0 0 42 54 54
36 36 28 28 36 36
36 36 28 28 36 36

运行命令:./Cocluster- -A e -C 3 -R 3 -E 1 -I d t test.txt -O c b 1 o output.txt

输出结果每3行是一组聚类

第一行是几乘几

第二行和第三行分别是行标和列标

参考文献:
Co-clustering of Human Cancer Microarrays using Minimum Sum-Squared Residue Co-clustering, H. Cho and I.S. Dhillon, IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), vol. 5:3, pages 385-400, July 2008.
回复 支持 反对

使用道具 举报

地板
发表于 2013-4-20 22:47:20 | 只看该作者
http://www.eisenlab.org/EisenData.htm
主要是酵母的基因表达数据
参考文献:郎显宇,陆忠华,迟学斌.一种基于“基因表达谱”的并行聚类算法.计算机学报.2007,30(2):311-316
回复 支持 反对

使用道具 举报

5#
发表于 2013-4-25 22:39:08 | 只看该作者
回复 支持 反对

使用道具 举报

6#
发表于 2013-4-26 21:17:05 | 只看该作者
特征选择方法——Rankgene

资料链接:http://genomics10.bu.edu/yangsu/rankgene/  (从网页上下载的源码有错,rankgene-1.1.tar.gz解压后需修改一下,文件/rankgene-1.1/load_genes.C第443行回退一行)

环境要求:
Supported operating systems and compilers
Operating System                     Compiler
Linux (Redhat 7.2/7.3)        gcc 2.96
Linux (Redhat 8.0)                       gcc 3.2

测试环境:gcc version 4.3.0 20080428 (Red Hat 4.3.0-8) (GCC)     OK

运行步骤:
1.准备
  $ gunzip rankgene-1.1.tar.gz

   $ tar -xvf rankgene-1.1.tar

   $ cd rankgene-1.1

   $ make

2.数据
标准格式(以源代码中测试数据为例):
all-aml.txt    基因表达矩阵(所有数据用tab分隔)
Gene Description        Gene Accession Number        样本名1   样本名2 ...
基因1的名字    基因1的编号   表达值1 表达值2...
基因2的名字    基因2的编号   表达值1 表达值2...
...
all-aml-class.txt   
样本名、类名,用tab隔开

3.运行
./rankgene -m 7 -n 100 -o data/gene.list -i data/all-aml.txt -c data/all-aml-class.txt

参考文献:Y. Su, T.M. Murali, V. Pavlovic, and S. Kasif, “Rankgene:Identification of Diagnostic Genes Based on Expression Data,”
Bioinformatics, http://genomics10.bu.edu/yangsu/rankgene/,2003.
回复 支持 反对

使用道具 举报

7#
发表于 2013-4-26 21:19:28 | 只看该作者
aaronwxb 发表于 2013-4-26 21:17
特征选择方法——Rankgene

资料链接:http://genomics10.bu.edu/yangsu/rankgene/  (从网页上下载的源码 ...

sorry,忘传附件了~
该版本已修复源代码bug,运行结构在文件/data/gene.list 中

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

8#
发表于 2013-4-26 21:37:28 | 只看该作者
特征选择方法——mRMR

在线资料:http://penglab.janelia.org/proj/mRMR/

windows32位版运行,从dos界面到目录下直接用命令运行

参考论文:H. Peng, F. Long, and C. Ding, “Feature Selection Based on Mutual Information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 27, no. 8, pp. 1226-1238, Aug. 2005.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

9#
发表于 2013-4-27 15:51:46 | 只看该作者
李涛特征选择的实验数据

ALL     http://www.stjuderesearch.org/data/ALL1/
MLL    http://research.dfci.harvard.edu/korsmeyer/MLL.htm
SRBCT     http://research.nhgri.nih.gov/microarray/Supplement/

NCI60    http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS1761
由于数据太大,不能够上传,需要修改后规范数据的同学,请于我联系

yuanluliao@foxmail.com


数据已经上传到服务器59.77.16.75。
/home/share/数据/生物信息学数据/基因表达数据 目录下,大家可以去那下载
回复 支持 反对

使用道具 举报

10#
发表于 2013-5-9 22:50:44 | 只看该作者
http://datamining.xmu.edu.cn/software/cluster_related/

聚类的相关代码使用方法,均已布置在66服务器上。

感谢@chenwq 的辛苦整理

http://datamining.xmu.edu.cn/bbs ... wthread&tid=886
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-5-16 16:31 , Processed in 0.237003 second(s), 22 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表