机器学习和生物信息学实验室联盟

标题: 基于分层泊松分解的可扩展推荐算法 [打印本页]

作者: Heryuying 时间: 2016-8-2 16:15
标题: 基于分层泊松分解的可扩展推荐算法
本帖最后由 Heryuying 于 2016-8-3 09:36 编辑

论文标题：Scalable Recommendation with Hierarchical Poisson Factorization

论文作者：Prem Gopalan, Jake M.Hofman, David M.Blei

主要工作：本文提出了一个新型泊松分解模型（HPF，Hierarchical Poisson Factorization），采用泊松分布计算用户和商品的隐变量，复杂的后验分布值则由mean-field平均场变分推断近似代替，经实验证明，HPF相对于经典的矩阵分解算法推荐性能得到显著提升，同时数据更易于大规模扩展。

泊松推荐
泊松分布只接受非负数据作为输入，具有较强的处理稀疏矩阵的能力，文中采取的分层结构也可以更大程度上发掘用户和物品的多样性。与传统的非负矩阵分解（NMF，Nonnegative Matrix Factorization）不同的是，对于一个满足泊松分布的系数矩阵，泊松分解在非负矩阵分解的基础上，通过调整系数的手段，使得分解后得到的两个矩阵都满足Gamma分布。其模型如下图：

本文认为，用户的行为数据yui满足用户兴趣θu和物品特征βi的泊松分布，而θu和βi又分别由用户活跃度ξu和物品流行度ηi决定。即

后验概率值确定后，通过泊松参数的期望计算出用户对未产生过行为的商品的评价，

HPF模型特性
1.HPF处理稀疏分解因子的效果更好。当形状参数较小时，大多数权重会逼近0从而简化了模型。
2.HPF可以尽可能发掘到长尾用户和物品。用户活跃度和物品流行度都满足长尾分布，即大多数用户都倾向于较低的活跃度，只有少部分商品很热门。为了验证这一点，本文在Netflix数据集上进行实验，结果如下：

其中，方块表示观测到的PPC值（Posterior predictive check），可以看到，当用户活跃度较低时，HPF相比于MF更加接近真实观测分布，性能提升明显。
3.HPF对0值进行降权。我们知道，当yui＞0，即用户消费了某商品时，肯定能得出用户对该商品感兴趣的结论；但是当yui=0，即用户未评价过该商品并一定表示用户不感兴趣，很有可能是用户还没机会消费。在传统基于高斯分布的MF算法中，对消费过和未消费过的商品赋予相同权重，这会导致特征提取的偏差，所以HPF对未产生行为的商品进行降权以获取更准确的用户兴趣特征。
4.计算速度更快。在损失函数中，将missing ratings设为0，不需要在优化时考虑，大大加快了运算速度。

变分推断方法
采用HPF做推荐的核心在于解决后验推断问题。和大多数贝叶斯模型一样，直接计算后验分布是非常困难的，泊松分解采用变分推断（Variational inference）作为优化目标函数的方法，其根本思想就是用一个简单分布q通过不断调节系数，来近似形式复杂、不易计算的后验分布p。
通常采用Kullback-Liebler（KL）距离来度量两个分布的相似度，KL距离越小，表示二者越接近。已知：

当近似分布q(Z)=p(Z|X)时，KL(q||p)为0，于是可以通过求L(q)的最大值间接将KL(q||p)最小化。
此外，在模型中加入隐变量因子k，对观测量增加k个隐变量z，根据mean-field理论，假设各个变量之间相互独立，则联合概率公式表示为：

将以上结果带入计算，得到用于泊松分解的变分推断算法如下图所示：

根据上述算法训练Gamma参数a，a’，b’，c，c’，d’求出隐藏变量，得到最终的用户评分矩阵。

实验结果
数据集：采集自文章类数据源Mendeley和New York Times，音乐类数据源Echo Nest以及电影类数据源Netflix。
Baselines：非负矩阵分解（NMF，Non-negative Matrix Factorization），文档主题生成模型（LDA，Latent Dirichlet Allocation），概率矩阵分解（MF，Probabilistic Matrix Factorization），协同过滤（CliMF，Collaborative Less-is-More Filtering）。下图是HPF和几种competing methods推荐结果的平均准确率和top@20时的平均召回率对比。

考虑用户活跃度的影响，几种算法的平均准确率和召回率如下：

实验结果说明，和其他常规算法相比，HPF模型在不同种类的数据集上的推荐效果存在明显提升，同时能应对活跃度较低的“长尾”用户。

总结与讨论
HPF算法是一种鲁棒性强且预测精度高的推荐模型，可以与贝叶斯非参数模型结合进行扩展以适应多维度的隐藏特征。其中一种改进方法是将置信权（confidence-weighting）引入HPF，降权效果超越泊松分解。

论文原文请参考：[attach]2595[/attach]

[attach]2595[/attach]

欢迎光临机器学习和生物信息学实验室联盟 (http://123.57.240.48/)