机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 22104|回复: 12
打印 上一主题 下一主题

kaggle比赛

  [复制链接]
跳转到指定楼层
楼主
发表于 2011-3-4 17:24:08 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
http://www.kaggle.com/

kaggle成为美国硅谷非常火的数据挖掘竞赛平台,大家可以在上面尝试一下自己的研究成果,而且有奖金。十分看好它的前景!
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

沙发
发表于 2011-3-5 16:48:19 | 只看该作者
很想知道爬虫程序怎么扒的....
回复 支持 反对

使用道具 举报

板凳
 楼主| 发表于 2011-3-7 16:20:52 | 只看该作者
回复 xmubingo 的帖子

就是个java程序,读html,见到链接再去读链接的html,很简单啊~~
回复 支持 反对

使用道具 举报

地板
发表于 2011-3-7 16:51:20 | 只看该作者
爬虫的机制本身很简单,动态维护一个url库,不断的访问url把内容保存下来,并加入新的链接。
目前对于爬虫的研究主要是更新下载这一块。因为Web上的页面都是动态的,所以用什么机制去考虑要不要重复下载一个相同的url,什么时候更新,是需要研究一下的。
但总体来说,我觉得这个方向不好做
回复 支持 反对

使用道具 举报

5#
 楼主| 发表于 2011-3-7 19:15:57 | 只看该作者
回复 chenlin 的帖子

赞,

果然是专家指导
回复 支持 反对

使用道具 举报

6#
发表于 2011-3-7 21:04:33 | 只看该作者
邹老师过奖了耶^_^
回复 支持 反对

使用道具 举报

7#
发表于 2011-3-7 22:41:40 | 只看该作者
回复 chenlin 的帖子

对啊,网站会更新,那就要定期再扫一次。如果做个类似RSS订阅的,当发现内容变化的时候,有目的的进行重新扫描就好了。可是又不是每个站支持RSS。呵呵
回复 支持 反对

使用道具 举报

8#
发表于 2011-3-15 12:56:32 | 只看该作者
啊哦,一路点点点,点过来了,误闯了大家的地盘,敢问这跟林老师的TREC比赛有关么?我比较感兴趣诶~~想报个名。。。。:$:$:$
回复 支持 反对

使用道具 举报

9#
发表于 2011-3-15 13:00:49 | 只看该作者
回复 chenlin 的帖子

林老师,林老师,终于找到你了~~{:2_27:}{:2_27:}
上次那个e-mail里您提到的概率学。。。我们这学期正在修《概率论与数理统计》,暑假前就over了,所以不会耽误您暑期的任务安排的~~~吼吼。。很希望能跟你混~~~
回复 支持 反对

使用道具 举报

10#
发表于 2011-3-15 15:12:35 | 只看该作者
回复 rella 的帖子

欢迎你啊!大学生创新比赛到大学生创新性实验那个区去发文跟帖,说明你要参加的项目。
TREC两个任务的数据集还没有发出来。
病历检索的我已经发去了申请函,估计一两周内能出来。Twitter的还比较麻烦,涉及到一些法律上面的事情。一般来说3月份数据集都要出来的。
数据出来了我会联系你的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-24 11:34 , Processed in 0.072767 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表