香港科技大学讲座教授杨强做了“跨域舆情分析的迁移学习”的主题报告。
情感分析是指分析用户的观点,市场趋向,人们对产品或服务的态度。
当我们在源域上训练的模型,迁移到目标域的时候,很容易出现准确率快速下降的情况,这是领域自适应方向上的一个挑战。
由于领域不同,用词也不同,比如描述电影很好,我们会用engaging, thoughtful, 而描述ipad,我们会用glossy, esponsive. 这称作Feature Mismatch. 就算是同一个词,用在不同领域描述的意思很可能截然相反,描述电影用lightweight是说电影没有情节,而描述ipad是说轻薄,这称作Semantic Variation. 由于不同领域,源域和目标域的特征空间分布是不同的。这些都是迁移学习需要解决的挑战。
迁移学习是怎么做的呢?
使用深度学习的方法:Auto-encoder based, Embedding-based, Adversarial learning
过去做迁移工作的时候,需要有一个概念叫Pivot,两个领域之间共享的关键词,这个关键词对于指出这个是正向和负向也是非常有用的,领域特有的词称作non-pivot。以前完全是靠人找到这两个词,我们知道这是不靠谱的。
Auto-encoder的key ideas是Encoder和Decoder用各领域混合的数据训练出中间的表示层,为了增加鲁棒性,输入数据加入噪音,用源域数据训练中间表示层输出标签,目标域包含相同情感关键词再次输入训练后的模型就可以输出源域对应的标签,这就不需要找pivots。
Embedding-based的主要想法是使用embeddings区别出non-pivots . 使用围绕在pivot的词汇non-pivot去学习pivot在领域里的具体含义,这解决Semantic Variation的问题。
我们如何通过迁移学习把pivot找出来?
在这里用的工具是GAN模型,在一堆摹本里面找出关注量比较大的词和词组,有了GAN模型,我们就可以自动打分,我们打的分数是否靠谱,可以用另外一个Domain Label的词告诉我们,什么样的词才有这样的特性呢?首先两个领域共享,能够帮助我们在新领域共同地指出舆情的趋向。我们同时希望领域的混淆度越大越好,同时我们希望Sentiment的准确率越高越好,这两个之间形成博弈,就形成了GAN的概念,另外是多任务学习,就是两个任务共同进行,共同有一些共享。我们不能只是在词的层次上进行的,有些情况下一个词的含义往往与上下文相关,可以同时使用Memory Network和GAN。
唐杰做了“Social Network Mining”的主题报告
唐杰在讲座中首先分析了什么是社交网络,以及社交网络的发展历史;随后他讲解了如何做社交网络和数据挖掘的研究、模型及应用。
唐杰认为社交网络就是由一组个人(节点)组成的图形,并由一个或多个相互依赖(边)联系起来。这是一个通过收集和分析大规模数据来揭示个人或社会行为模式的领域。
唐杰认为若想理解社交网络是什么,就需要理解整个 internet 的发展。Internet 的发展主要有三个阶段。在信息时代 1.0 时,网络就是由一系列页面(文档)和页面上的链接构成的一个结构。第一个时代一方面越来越多的传统行业不断地加入,于是产生了大数据;同时还伴随着产生了云计算。在信息时代 2.0,用户加入了网络当中,今日头条就是这方面典型的应用。在信息时代 3.0,用户开始在网络上了,用户之间形成了交互,这就形成了信息空间和用户空间,通过两个空间信息的融合将产生智能。
有了数据,怎么去发现并充分利用大数据的价值,则需要新型数据挖掘和分析方法,以能够从非结构化数据中获得知识和洞察力。
随后唐杰以如何将 AI应用到慕课以及如何通过手机发红包的数据研究社会现象两个具体案例,讲述了如何做社交网络的问题研究。
在社交网络研究的计算模型方面,唐杰以Unifying Network Embedding为主题,介绍了将 DeepWalk,LINE,Node2Vec 等 network embedding 的方法,通过 Matrix Factorization 框架来统一表示。进一步地基于 Matrix Factorization 的思路,提出 NetMF 方法,实验证明优于 DeepWalk,LINE 的算法。此外唐杰也给出了相关 Upper Bound 的严格数学证明。具体需要看Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec这篇论文。最后唐杰以他近期所做的研究 AMiner 为例详细讲述社交网络的研究如何应用到实际问题当中。他还介绍了一些有意思的应用,包括预测红包流向、学堂在线伴读机器人。
这次KDD-china的会议让我看到了许多大牛,杨强的讲解十分清晰,唐杰的数学推理精彩,同时感到自身知识不足,只能听懂很小的一部分,需要不断学习提升学术水平,这样才能自信的与更多的牛人交流。
|