机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 3973|回复: 4
打印 上一主题 下一主题

半监督学习入门

[复制链接]
跳转到指定楼层
楼主
发表于 2013-5-30 19:11:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 xmubingo 于 2013-5-30 19:44 编辑

当我们发现,标记的样本很少,而未标记的样本很多的时候,怎么办?

采用半监督方法,例如self-training(又叫做self-teaching或bootstrapping):



初始化: L是有少量有类标数据,U是大量无类标数据,重复如下步骤
1. 基于训练集L构建分类器h
2. 利用分类器h对U进行分类预测
3. 将预测结果里置信度高的样本记作U'(置信度可以用熵来衡量,熵越小,置信度越大。例如0.7-0.3置信度比0.5-0.5大)
4. L = U' + L
5. U = U - U'

这样训练集不断加大,理论上半监督的方法会比直接用少量L训练的有监督方法好。另外还有co-training,tri-training等等训练方法。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

沙发
 楼主| 发表于 2013-5-30 19:22:43 | 只看该作者
本帖最后由 xmubingo 于 2013-5-30 20:25 编辑

2008年ACL的tutorial就是关于半监督。http://ssl-acl08.wikidot.com/start
其中,Xiaojin (Jerry) Zhu在半监督方面很有建树,经常在论文中见到这作者。貌似他出书后就改做图模型了。汗。也可以关注Olivier Chapelle。
Jerry Zhu的个人主页:http://pages.cs.wisc.edu/~jerryzhu/
Olivier Chapelle的个人主页:http://olivier.chapelle.cc/index.html

Jerry Zhu在2009写的一本书《Introduction of Semi-supervised learning》
感谢爱问,哈哈,这pdf被某个鸟人看过了,里面有些注释,不过不影响阅读


Jerry Zhu2009年暑期学校的tutorial


Jerry Zhu和John Blitzer在ACL2008年上做的tutorial


Jerry Zhu在ICML2007年上做的tutorial


tutorial都差不多,选一个仔细看完。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

板凳
 楼主| 发表于 2013-5-30 19:33:45 | 只看该作者
相关软件专用帖:

Semi-Supervised Learning Software http://pages.cs.wisc.edu/~jerryzhu/ssl/software.html
回复 支持 反对

使用道具 举报

地板
发表于 2013-5-30 19:35:33 | 只看该作者
orz,学习了
回复 支持 反对

使用道具 举报

5#
发表于 2013-5-31 09:57:11 | 只看该作者
向高手学习~
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-27 05:44 , Processed in 0.070511 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表