基于关系的文本数据的可扩展社区发现
论文标题:Scalable Community Discovery on Textual Data with Relations
作者:微软研究院网络搜索和挖掘小组
本文主要贡献:1.对关于大规模文本数据集的社区发现就可拓展性以及其对初始参数的敏感性做出了分析。2.定义了一个同时利用文本属性以及关系的可拓展社区发现方法。3.为了减少初始参数设定的影响,介绍了一个新的社区合并方法。4.对此方法进行评估比较,比其他方法提高了15%的精确度。(这是一篇08年的比较老的文章了,就介绍一下它的主要思想)
社区模型:一个社区 Ci 是一个documents集合{di|i = 1, 2, ..., n, di =< Ai, Ri >},Ai代表di 的属性,Ri是和di相连的关系。与Ci相关联的主题表示为Zi,每个Ci可能包括几个主要成员Ki。而Ci的附属成员则根据与Zi的联系紧密度排序,这样就使得社区Ci有了一个分层。
而整个模型包括核心发现,核心合并,附属成员拓展,分类这几个过程。
两个核心的合并首先要求必须含有相同元素||Ki ∩ Kj ||> 0,接下来再对两个核心进行局部相似性计算。vij min 和 vij max分别代表属于核心Ki的所有文件在特征维度j上的最大值和最小值
[attach]2776[/attach]
对于一对核心Ki和Kj,我们先计算他们的交叉Rij,如果在每个维度上,Pi min都大鱼pj max,就没有算Rij的必要了。如果两个核心在特征空间上有重叠,即Rij = ∅,如果∃p ¯ ∈ p ¯ i ∪ p ¯ j,p ¯ ∈ Ki ∩ Kj,就将其合并。
[attach]2785[/attach]
而核心合并与其核心合并顺序是没有关系的。保持了很高的一致性。
附属成员拓展:内核构建后,关系被用来扩展核心形成初始社区。在这一步的子图的实心圆表示社区的边界。
在进行完核心合并之后剩下的都属于附属成员{di|di ∈ C − K} 。然后对在语料库中的di进行迭代判断,看其是否于核心相关联,相关联则加入社区。但在这个步骤中为避免环的出现而造成无限循环会限制迭代步数。
分类:分类的过程是在一个基于文本社区对每个成员进行从属关系的敲定。错误的关系则会被去掉。因为发现基于关系传播的社区可能会因为局部模糊的弱关系而产生错误的链接。所以在这个步骤中会利用属性分析来过滤掉社区的一些候选成员。
这个剪枝的过程可以看作是一种特殊的分类问题。给出一个社区 Ci = {di1, di2, ..., din}以及它的核心 Ki, 我们希望可以将 Ci两个部分 Ci and Ci‘ so that Ci = Ci ∪ Ci ’and Ki ⊂ Ci .