机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 1410|回复: 4
打印 上一主题 下一主题

成都preKDD总结报告--林盈来

[复制链接]
跳转到指定楼层
楼主
发表于 2018-8-8 11:25:20 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 yllin 于 2018-8-8 11:29 编辑

[size=15.1111px]成都preKDD总结报告–林盈来
[size=15.1111px]会议内容
[size=15.1111px]赞助宣讲
[size=15.1111px]京东
  • 京东的主题是智能城市。着手的主题都是和城市资源调度密切相关的,比如基于 mobile 的路程信息来判断违章停车、基于人流来判断区域危险等级、判断空气质量。
  • 智能城市的本质就是对城市进行一个建模的过程,其通过对数据的分析然后训练一系列模型来进行资源的分配,以达到最大化资源利用率的目的。这次的智能城市实质上可以看做京东的一次宣传,4篇论文都是来自于京东金融的投稿。
  • 京东的工作来向我们传递一个信息 : 数据和特征工程是一个好模型的基础。

[size=15.1111px]百度
  • 继微信、支付宝先后发布小程序之后,百度也坐不住了,其打算开发一个信息聚合平台来与之匹敌。
  • 当下,市场在腾讯阿里两家的掌握之下,百度企图联合其他产家来做的平台的成功几率渺茫。至于百度所引用的 “将世界从封闭走向开放” 纯粹是想要出师有名罢了。

[size=15.1111px]表征学习
[size=15.1111px]清华大学
  • 唐杰教授分享了其同事的一篇论文(Network Embedding as Matrix Factorization:Unifying DeepWalk, LINE, PTE, and node2vec),这篇论文将图表示学习领域的 4 篇的经典文章改写称为了一个矩阵分解问题。唐杰教授简要的叙述了部分推导过程,并介绍了基于矩阵分解的方法和原方法的适用范围。此外,唐杰教授还分享了一些关于社交网络数据的研究和方法,由于是和腾讯合作,所以无法拜读。
  • 清华大学另外一篇是关于 graph-based data 的任意阶相似度的 embedding方法的介绍(Arbitrary-Order Proximity Preserved Network Embedding)。乍一看,这一篇论文可能会被认为是 LINE 的二阶相似性的拓展,但其是从邻接矩阵的闭包进行考虑。这篇文章主要难点在于对于矩阵的转换,即将矩阵的多项式转变为特征值的多项式。常见的图表示学习方法一般通过随机游走来对图结构数据进行采样,这就导致了对于图的结构的完整性的缺失。虽然仅仅由邻接矩阵的闭包不能够很好地体现出连接的重要性(while random-walk based method can),但是其效果也是非常好的,如果有后续改进,应该会取得更好的结果。并且,这个方法的速度也很快。基于层次的图表示学习方法可能是对该论文的改进的方向,例如加入层次图的邻接矩阵的闭包,或许会有一个惊喜。

[size=15.1111px]自然语言处理
  • 包含了一些基于语义分析方法,包含部分表征学习的方法。

[size=15.1111px]阿里
  • 阿里在本次会议分享了一篇关于推荐的论文(Learninig Tree-based deep model for recommmender system)。其将深度学习与传统数据结构算法进行了结合,其将推荐问题看做一个线段树的查询问题(我认为比堆更贴切,和 有点类似于 kd 树)。每个物品只存储于树的叶子节点,然后通过区间查询(向量的相似度)来选择自顶向下的路径。

[size=15.1111px]metapath-based method
  • 本次会议中许多论文用到了 metapath 及其相关的定义。浙江大学有一篇基于 metapath 的改进来学习 embedding 的论文(Interactive Paths Embedding for Semantic Proximity Search on Heterogeneous Graphs),其主要思想是想要学习采样得到的路径之间的语义关系,从而更好地捕获异构图中的语义关系,其行为和 metaGraph 有点相似。

[size=15.1111px]其他
  • 本次会议中有多个地方使用到了主动学习和注意力模型,这是以前没有学习过的。

[size=15.1111px]主动学习(Active Learning)
  • 主动学习常用于数据数量较小的情况,以减少人工标注的成本。其核心思想是每次挑选当前分类器效果不理想的那些样本来进行训练而不是从样本中随机地抽取样本来进行训练。

[size=15.1111px]注意力模型(Attention Model)
  • 注意力模型可以应用于计算机视觉和文本处理中。其本质是一个对于输入的加权,其可视化结果非常像相机的聚焦。

[size=15.1111px]总结
  • 本次 KDD 会议中,许多论文都涉及到了表征学习和文本处理相关的模型,自然语言处理在未来会扮演越来越重要的作用。
  • 本次 KDD 会议, 感受到的氛围有二: 1. peer presure 2. 好的互联网公司不仅应用做得好,科研也做得好。

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏1 转播转播 分享分享
回复

使用道具 举报

沙发
发表于 2018-8-10 21:04:42 | 只看该作者
很多有意思的论文。有几篇深入学习一下。比如metapath,主动学习,自然语言处理也是可以用到我们的项目中的。
回复 支持 反对

使用道具 举报

板凳
 楼主| 发表于 2018-8-10 21:28:21 | 只看该作者
xzeng 发表于 2018-8-10 21:04
很多有意思的论文。有几篇深入学习一下。比如metapath,主动学习,自然语言处理也是可以用到我们的项目中的 ...

现在关于 NE 的一个大的方向就是更多的去关注语义信息,而不仅仅去关注结构信息。比如刘知远教授之前有一篇把 KG 中的 TransE 的想法用到 embedding 中,本质上是将一个节点的表示变为节点表示和关系表示的加权和。所以对应到咱们这个方向,一个可行的就是把对疾病或者基因的描述也加入进来,细化节点对之间的关系,但是单纯这样做的话,相当于一个应用,缺少 originality 了。
回复 支持 反对

使用道具 举报

地板
发表于 2018-8-11 00:37:28 | 只看该作者
一个是关注多层网络,把多层网络一起来embedding,另一个就是把结构信息和语义信息结合起来embedding,这两个应该都是下一步的热点。在这两方面做工作,不管是应用,或者原创方法,originality都不错。
回复 支持 反对

使用道具 举报

5#
 楼主| 发表于 2018-8-15 12:16:07 | 只看该作者
xzeng 发表于 2018-8-11 00:37
一个是关注多层网络,把多层网络一起来embedding,另一个就是把结构信息和语义信息结合起来embedding,这两 ...

多层网络实质上对应了异构网络,其本质还是为了尽量多地获取语义信息。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-23 13:50 , Processed in 0.069786 second(s), 19 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表