论文 A Unified Graph Model for Sentence-based Opinion Retrieval (10 ACL, Binyang Li, Lanjun Zhou)
文章的核心思想是提出了一种基于topic-sentiment word pair的结构进行句子级情感检索(个人理解其实就是评价搭配用到了情感检索上)。可以挖掘句内的target和opinion组成的pair,对于句间可以挖掘针对同一topic的不同opinion;最终使用一个无向图将两种信息融合起来。
Introduction + Motivation(值得学习)
以往的情感检索大多是2-stage的方法。第一步是计算文档性分值,如tf-idf;第二步是计算情感分值(可以通过SVM分类器或者通过带权重的情感词典);最终将相关性分值和情感分值结合(Scoredoc = Scorerel + Scoreop),并对文档进行重排序。作者指出以往2-stage方法中大多使用bag-of-words表示文档,忽略了上下文信息,并指出句子中包含的情感可能并不是针对当前topic的;此外,当前并没有一种方法可以挖掘针对同一topic的不同opinion。
使用资源
这里用到了两个词典,分别是情感词词典Vo和主题词词典Vt。
Vo结合了3个已有的情感词典资源。
Vt使用两种方法生成,一种是基于词典的方法,即用Wikipedia进行同义词和词频统计扩充,wiki返回页中前k个频率最高的词条;另一种是基于伪相关反馈,即基于web的方法,针对一个query在前n个返回文档中取前m个主题词。
图模型(核心)
对于每个情感词,找与其最近的搭配,并且用距离来度量这个搭配的紧密程度。同时,一个句子只抽取一个搭配对(为什么必须要这么限制呢??),并且是间距最小的搭配对。如果一个句子不包含搭配对,就认为是没有情感。
HITS模型
总体来说,HITS模型是一个二部图,图的两层分别为Hubs和Authority,在文章中target-opinion组成的pair作为Hubs,文档Doc作为Authorities,每个Doc由多个sentence组成;若一个pair出现在doc中,则对应pair和doc之间连接一条边。
每一条边的权重是由相关性分值和情感分值结合而成的,通过迭代计算直至整个图模型平衡。并按照Authority的分值对doc进行排序。
Related Work看的不是很仔细,读着有点迷惑~~~待再细读