机器学习和生物信息学实验室联盟
标题:
半监督学习入门
[打印本页]
作者:
xmubingo
时间:
2013-5-30 19:11
标题:
半监督学习入门
本帖最后由 xmubingo 于 2013-5-30 19:44 编辑
当我们发现,标记的样本很少,而未标记的样本很多的时候,怎么办?
采用半监督方法,例如self-training(又叫做self-teaching或bootstrapping):
[attach]1475[/attach]
初始化: L是有少量有类标数据,U是大量无类标数据,重复如下步骤
1. 基于训练集L构建分类器h
2. 利用分类器h对U进行分类预测
3. 将预测结果里置信度高的样本记作U'(置信度可以用熵来衡量,熵越小,置信度越大。例如0.7-0.3置信度比0.5-0.5大)
4. L = U' + L
5. U = U - U'
这样训练集不断加大,理论上半监督的方法会比直接用少量L训练的有监督方法好。另外还有co-training,tri-training等等训练方法。
[attach]1474[/attach]
作者:
xmubingo
时间:
2013-5-30 19:22
本帖最后由 xmubingo 于 2013-5-30 20:25 编辑
2008年ACL的tutorial就是关于半监督。
http://ssl-acl08.wikidot.com/start
其中,Xiaojin (Jerry) Zhu在半监督方面很有建树,经常在论文中见到这作者。貌似他出书后就改做图模型了。汗。也可以关注Olivier Chapelle。
Jerry Zhu的个人主页:
http://pages.cs.wisc.edu/~jerryzhu/
Olivier Chapelle的个人主页:
http://olivier.chapelle.cc/index.html
Jerry Zhu在2009写的一本书《Introduction of Semi-supervised learning》
感谢爱问,哈哈,这pdf被某个鸟人看过了,里面有些注释,不过不影响阅读
[attach]1479[/attach]
Jerry Zhu2009年暑期学校的tutorial
[attach]1478[/attach]
Jerry Zhu和John Blitzer在ACL2008年上做的tutorial
[attach]1477[/attach]
Jerry Zhu在ICML2007年上做的tutorial
[attach]1476[/attach]
tutorial都差不多,选一个仔细看完。
作者:
xmubingo
时间:
2013-5-30 19:33
相关软件专用帖:
Semi-Supervised Learning Software
http://pages.cs.wisc.edu/~jerryzhu/ssl/software.html
作者:
liuchu
时间:
2013-5-30 19:35
orz,学习了
作者:
hsc
时间:
2013-5-31 09:57
向高手学习~
欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/)
Powered by Discuz! X3.2