机器学习和生物信息学实验室联盟

标题: 交叉社交媒体的推荐 [打印本页]

作者: dingningxiang 时间: 2016-7-20 15:44
标题: 交叉社交媒体的推荐
本帖最后由 dingningxiang 于 2016-7-20 16:27 编辑

交叉社交媒体的推荐

论文标题：Cross Social Media Recommendation
http://www.bibsonomy.org/bibtex/22cb9bd06e6144b8909ab55c61c8a2360/dblp
作者：Xiaozhong Liu，Tian Xia，Yingying Yu，Chun Guo，Yizhou Sun
会议：2016 The International AAAI Conference on Web and Social Media(ICWSM)
研究背景
社交媒体改变了人们认知和理解世界的方式，社交媒体挖掘的方法目前已经比较完备。尽管每天都有数以万计的人在社交平台上相互交流，不幸的是，没有一个社交媒体能够连接来自全球的用户。由于Twitter和Facebook无法在中国使用，21.97%的用户被排除在这两种社交媒体之外。类似地，至2015年，新浪微博在中国拥有多达1 7600 0000的用户，然而，由于新浪微博的默认语言是中文，它的用户群体几乎都是中国人或懂中文的人。不同社交媒体针对不同的人群，不同的人群感兴趣的话题也不同。因此，没有任何一个社交媒体可以很好地反映全球用户的信息。
本文的重点在于如何构建“虚拟全球社交媒体网络”，从而把两个不同社交媒体（island）中的用户和话题连接到一起。就我们所知，这是第一个把不同语言、文化、和社交网络（bubles）中的用户和话题连接到一起的虚拟社交网络。PGSMN的作用体现在以下三个方面：

1. 广告商和法律执行代理人可以在PGSMN网络中，发现对某些话题关注的用户群，从而发掘一些可以利用的潜在关系；

2. 通过PGSMN网络，学者们可以调查中国社会和美国社会对待相同的问题会有哪些异同；

3. PGSMN网络使交叉社会媒体中的推荐得以实现。

PGSMN网络的构建主要有两方面的阻碍：
1. Twitter和微博的用户和话题分别隶属于两个独立的社交网络，由于只有极少数用户同时拥有Twitter账号和微博账号，两个网络之间几乎没有任何已存在的联系；

2. Twitter和微博分别使用两种不同的语言。不仅如此，由于字数限制，用户经常使用俗语和缩写来表达复杂的语法，这对传统的机器翻译的方法是一个很大的挑战。

PGSMN网络的构建
本文构建的PGSMN网络是一个三层异构网络，包括Twitter层、微博层，以及维基百科过渡层，如下图所示：

之所以选择维基百科作为中间过渡层，原因有三：首先，维基百科为所有的词语提供了英文和中文的定义；其次，维基百科中的所有词语都通过类别归属或者相关链接连接在一起；最后，维基百科提供了俗语和普通词汇的转换机制。
如下图所示，PGSMN网络中节点的关系有以下三类：

1. Twitter层和微博层各自内部节点间的关系，包括用户之间的关系、用户和话题标签之间的关系，以及话题标签之间的关系；

2. Twitter层和微博层与维基百科层之间的关系，包括用户与维基百科中文章的关系、话题标签与维基百科中文章的关系、用户与维基百科中路径的关系，以及话题标签与维基百科中路径的关系；

3. 维基百科层内部节点间的关系，包括文章之间的关系、文章与分类的关系，以及分类之间的关系。

在构建PGSMN网络前，需要先构建一个同构树状的维基百科的类别层次结构图（Category tree），构建该图的算法如下：

网络各层之间链接的构建
为了将微博层与Twitter层中的节点与维基百科层联系在一起，本文先定义了用户（User）与话题标签（Hashtag）与维基百科中的词条节点（Article）之间相关性的计算方法（ESA）：

为了使实验结果更精确，本文还定义了用户和话题标签与维基百科中某条分类路径（Path）相关性的计算方法（ESPA）。

在ESPA方法中，首先定义了用户与话题标签与维基百科中的分类节点（Category）之间相关性的计算方法：

之后对每个分类节点的相关性进行归一化：

完成归一化后，以自底向上的顺序（Botton up）求出分类树种每个节点的相关性：

最后，以自顶向下的顺序（Topdown）求出每条分类路径关于该用户（话题标签）的相关性：

路径集合之间的随机游走

经过ESPA方法计算后，为每个用户和话题标签筛选出相关性最高的若干条分类路径，将其放入一个分类路径的集合。本文首次定义了两个路径集合之间的随机游走：

微博与Twitter间的交叉推荐
为了更加易于验证，本文选择的实验方式是将Twitter上的话题标签推荐给微博用户。

实验开始前，本文先使用GoogleAPI将所有的微博标签翻译成英文，之后将翻译后的微博标签与Twitter标签进行匹配，过滤掉微博和Twitter重复的话题，这样做的目的在于保证推荐给微博用户的话题是微博中没有的“新话题”。

实验部分
数据来源：本文使用的实验数据是微博和Twitter自2012.9.17至2012.9.23这一周时间的数据，以及维基百科2014年三月份的数据，数据共包含3296945条微博消息和20128826条Twitter消息。
实验构建了如下的PGSMN网络：

不同评价指标下的实验结果如下：

NDCG指标下每个元路径特征的实验结果如下：

该结果说明，本文的实验结果可靠有效，远优于传统机器翻译推荐算法，且包含了用户与话题标签联系和标签之间相互联系的元路径的实验结果优于其他元路径，表明本文选用了微博与Twitter内部节点的多种关系，有效提高了实验效果。

论文报告见

作者: sndnyangd 时间: 2016-7-20 19:38
好像很厉害的样子~~~

欢迎光临机器学习和生物信息学实验室联盟 (http://123.57.240.48/)