机器学习和生物信息学实验室联盟
标题:
kaggle比赛
[打印本页]
作者:
zouquan
时间:
2011-3-4 17:24
标题:
kaggle比赛
http://www.kaggle.com/
kaggle成为美国硅谷非常火的数据挖掘竞赛平台,大家可以在上面尝试一下自己的研究成果,而且有奖金。十分看好它的前景!
作者:
xmubingo
时间:
2011-3-5 16:48
很想知道爬虫程序怎么扒的....
作者:
zouquan
时间:
2011-3-7 16:20
回复
xmubingo
的帖子
就是个java程序,读html,见到链接再去读链接的html,很简单啊~~
作者:
chenlin
时间:
2011-3-7 16:51
爬虫的机制本身很简单,动态维护一个url库,不断的访问url把内容保存下来,并加入新的链接。
目前对于爬虫的研究主要是更新下载这一块。因为Web上的页面都是动态的,所以用什么机制去考虑要不要重复下载一个相同的url,什么时候更新,是需要研究一下的。
但总体来说,我觉得这个方向不好做
作者:
zouquan
时间:
2011-3-7 19:15
回复
chenlin
的帖子
赞,
果然是专家指导
作者:
chenlin
时间:
2011-3-7 21:04
邹老师过奖了耶^_^
作者:
xmubingo
时间:
2011-3-7 22:41
回复
chenlin
的帖子
对啊,网站会更新,那就要定期再扫一次。如果做个类似RSS订阅的,当发现内容变化的时候,有目的的进行重新扫描就好了。可是又不是每个站支持RSS。呵呵
作者:
rella
时间:
2011-3-15 12:56
啊哦,一路点点点,点过来了,误闯了大家的地盘,敢问这跟林老师的TREC比赛有关么?我比较感兴趣诶~~想报个名。。。。:$:$:$
作者:
rella
时间:
2011-3-15 13:00
回复
chenlin
的帖子
林老师,林老师,终于找到你了~~{:2_27:}{:2_27:}
上次那个e-mail里您提到的概率学。。。我们这学期正在修《概率论与数理统计》,暑假前就over了,所以不会耽误您暑期的任务安排的~~~吼吼。。很希望能跟你混~~~
作者:
chenlin
时间:
2011-3-15 15:12
回复
rella
的帖子
欢迎你啊!大学生创新比赛到大学生创新性实验那个区去发文跟帖,说明你要参加的项目。
TREC两个任务的数据集还没有发出来。
病历检索的我已经发去了申请函,估计一两周内能出来。Twitter的还比较麻烦,涉及到一些法律上面的事情。一般来说3月份数据集都要出来的。
数据出来了我会联系你的。
作者:
rella
时间:
2011-3-15 20:08
回复
chenlin
的帖子
嗯,嗯,好期待哦~~~我刚刚已经报了那个病例检索的项目。。{:3_47:}
作者:
sndnyangd
时间:
2011-4-4 23:07
老师,可以像生物信息版块一样,给个入门教程吧:)
作者:
sunyuanshuai
时间:
2011-8-4 20:27
加油!
欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/)
Powered by Discuz! X3.2