机器学习和生物信息学实验室联盟

标题: kaggle比赛 [打印本页]

作者: zouquan    时间: 2011-3-4 17:24
标题: kaggle比赛
http://www.kaggle.com/

kaggle成为美国硅谷非常火的数据挖掘竞赛平台,大家可以在上面尝试一下自己的研究成果,而且有奖金。十分看好它的前景!

作者: xmubingo    时间: 2011-3-5 16:48
很想知道爬虫程序怎么扒的....
作者: zouquan    时间: 2011-3-7 16:20
回复 xmubingo 的帖子

就是个java程序,读html,见到链接再去读链接的html,很简单啊~~
作者: chenlin    时间: 2011-3-7 16:51
爬虫的机制本身很简单,动态维护一个url库,不断的访问url把内容保存下来,并加入新的链接。
目前对于爬虫的研究主要是更新下载这一块。因为Web上的页面都是动态的,所以用什么机制去考虑要不要重复下载一个相同的url,什么时候更新,是需要研究一下的。
但总体来说,我觉得这个方向不好做
作者: zouquan    时间: 2011-3-7 19:15
回复 chenlin 的帖子

赞,

果然是专家指导
作者: chenlin    时间: 2011-3-7 21:04
邹老师过奖了耶^_^
作者: xmubingo    时间: 2011-3-7 22:41
回复 chenlin 的帖子

对啊,网站会更新,那就要定期再扫一次。如果做个类似RSS订阅的,当发现内容变化的时候,有目的的进行重新扫描就好了。可是又不是每个站支持RSS。呵呵
作者: rella    时间: 2011-3-15 12:56
啊哦,一路点点点,点过来了,误闯了大家的地盘,敢问这跟林老师的TREC比赛有关么?我比较感兴趣诶~~想报个名。。。。:$:$:$
作者: rella    时间: 2011-3-15 13:00
回复 chenlin 的帖子

林老师,林老师,终于找到你了~~{:2_27:}{:2_27:}
上次那个e-mail里您提到的概率学。。。我们这学期正在修《概率论与数理统计》,暑假前就over了,所以不会耽误您暑期的任务安排的~~~吼吼。。很希望能跟你混~~~
作者: chenlin    时间: 2011-3-15 15:12
回复 rella 的帖子

欢迎你啊!大学生创新比赛到大学生创新性实验那个区去发文跟帖,说明你要参加的项目。
TREC两个任务的数据集还没有发出来。
病历检索的我已经发去了申请函,估计一两周内能出来。Twitter的还比较麻烦,涉及到一些法律上面的事情。一般来说3月份数据集都要出来的。
数据出来了我会联系你的。

作者: rella    时间: 2011-3-15 20:08
回复 chenlin 的帖子

嗯,嗯,好期待哦~~~我刚刚已经报了那个病例检索的项目。。{:3_47:}
作者: sndnyangd    时间: 2011-4-4 23:07
老师,可以像生物信息版块一样,给个入门教程吧:)
作者: sunyuanshuai    时间: 2011-8-4 20:27
加油!




欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2