机器学习和生物信息学实验室联盟

标题: 将XML文件解析成CSV(excel)文件 [打印本页]

作者: wangzhen    时间: 2013-12-17 12:49
标题: 将XML文件解析成CSV(excel)文件
本帖最后由 wangzhen 于 2013-12-17 12:48 编辑

问题:
         数据库中下载了集成多种蛋白质信息(名称、序列、亚细胞位点等等)的XML文件,现将XML文件解析成标准csv(excel)格式文件。

方法:
         jar文件: ReadXml.jar
         输入:待处理的XML文件:LOCATE_human_v6_20081121.xml(此文件必须放在一个文件夹内,本例为D:\XML文件夹,并且此文件夹只有这个待处理文件)
         输出:CSV文件: LOCATE_protein.csv(提前新建一个文件夹output,csv文件会生成在output文件夹中)

         打开dos命令窗口,一直cd到ReadXml.jar文件存放的文件夹(以桌面为例),输入命令java -jar -Xmn16m -Xms64m -Xmx8000m ReadXml.jar D:\XML output   (其中:-Xmn16m -Xms64m -Xmx8000m指令是JVM内存修改,根据自己的情况修改大小或不写。见下图解释)
如下图所示:
[attach]1805[/attach]
图中:
        红色框内为修改JVM堆内存指令(我将Xmx修改成了8000m,之前修改成4000m仍然失败。待处理文件627m,本人电脑内存16G,可根据个人情况自行设置,否则会出现java.lang.OutOfMemoryError: Java heap space错误!)
        黄色框内的文件夹output(输出文件.csv文件所在的文件夹)是提前新建好的,其存放路径必须与ReadXml.jar存放路径相同!
      
        注意!!指令中输入、输出参数必须是存放输入输出文件的文件夹,而并非输入输出文件!!

[attach]1806[/attach]

代码是胡世昌师兄写的,并交我如何使用,谢胡哥~
现将用法总结如上,供大家学习~

作者: zouquan    时间: 2013-12-17 15:54
哈哈,整天整点几k几m的有啥意思?

不干点大活儿,都对不起我的16G内存电脑
作者: hsc    时间: 2013-12-17 16:03
PS:我名字给我写错了
另外,这个程序很早之前写的,当时只是为了方便,所以里边很多东西都是按照最简单的方式来处理的,小打小闹可以,如果是需要正规一点的,还是谨慎一点使用,先mark一下,待我论文写完,给写一个可定制功能的版本的!
作者: wangzhen    时间: 2013-12-18 09:39
zouquan 发表于 2013-12-17 15:54
哈哈,整天整点几k几m的有啥意思?

不干点大活儿,都对不起我的16G内存电脑

惭愧惭愧...努力努力
作者: wangzhen    时间: 2013-12-18 09:40
hsc 发表于 2013-12-17 16:03
PS:我名字给我写错了
另外,这个程序很早之前写的,当时只是为了方便,所以里边很多东西都是按照最 ...

不好意思啦。。。
期待高版本诞生~




欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2