机器学习和生物信息学实验室联盟

标题: 成都preKDD总结报告--赵连敏 [打印本页]

作者: zhaolm 时间: 2018-8-7 14:38
标题: 成都preKDD总结报告--赵连敏
<h1>成都KDD学习记录——舆情分析与深度学习</h1>

<p>舆情分析的整个发展历程从大的范围上看经历了浅层与深层学习俩个阶段。在浅层学习阶段，所采用的，更多的还是与之前语言学研究方法相结合的一些方法加之以简单的机器学习算法，核心就是去找出pivot与non-pivot，根据这些关键词来对整体评论的倾向性作出判断。这其中存在着两个问题，不同领域评价所用的词有着区别以及同一个词在不同的领域有着不同的情感倾向，这在传统浅层学习之中是很难解决的问题。其方法主要是在标注好的样本之中找出具有共性的词，例如good一词在几乎所有领域都会表示较好的评价，是典型的pivot；将这些pivot找出来之后，在找到各个句中出现的其他的词，可以视之为non-pivot，将这些词进行聚类分析，可以分别形成褒义与贬义词的聚类，在依据这些内容对于新的内容进行预测。</p>

<p>随后，随着神经网络的兴起，深度学习开始发展，在这一领域，深度学习也发挥了很好的作用。首先采用的是Auto-encoder算法，其核心思想是构建一个中间编码层，将原始评论embedding到这一中间层Z中，使其对于机器而言变得较为友好，同时通过一个解码器decoder也可以将之还原会原本的评论。这一编码解码器所需要优化的即编码前后的误差。经过这一方法的改造，可以在一定程度上解决不同领域用词不同的问题，也可以避免之前复杂的分类工作，实现端到端的神经网络。之后，为了考虑解决一词歧义的问题，又采用了Embedding Based的方法，其核心思想是在求解概率时，将该评论所涉及的领域纳入考虑，将条件概率变为与出现领域有关的联合概率，从而一定程度上解决这一问题。</p>

<p>最后介绍的是杨教授最近采用的方法——Adversarial Learning，由此组成记忆网络，主要有俩个创新点：先是实现了端到端的可解释模型；也将处理层次从单词上升到句子的层面，对整体意义的把握更加准确。记忆网络的第一层先要将原始句子分别embedding到权重层与自身内容有关的分句分类当中，再经过一次embedding送到下一层，第二层所采用的就是一级对抗网络，分别来使误差增大与减小，减小的一端来筛选pivot，而增大的一端用来筛选non-pivot，由此实现高效、准确的分类。</p>

欢迎光临机器学习和生物信息学实验室联盟 (http://123.57.240.48/)