大家好,欢迎来到IT知识分享网。
第1章 搜索结果多样化
1.1 传统的信息检索技术
1.1.1 传统IR流程
传统的信息检索主要是通过搜索引擎来满足用户输入的查询需求。以下是传统信息检索的主要特点和流程:
- 用户查询:用户通过搜索引擎输入查询词或短语,表达他们感兴趣的主题或问题。
- 索引建立:搜索引擎事先对互联网上的网页进行爬取和分析,建立一个索引。这个索引类似于图书馆的目录,包含了每个网页的关键词、链接等信息。
- 查询处理:当用户输入查询后,搜索引擎通过查询处理系统解析查询,识别关键词,并使用索引找到相关的文档。
- 相关性排序:传统信息检索主要依赖于文档与查询之间的相关性。搜索引擎使用算法来评估每个文档与查询的相似程度,然后按照相关性进行排序,将最相关的文档显示在搜索结果的前面。
- 结果呈现:搜索引擎将排序后的结果以列表形式呈现给用户。通常,用户可以通过点击链接访问相关网页。
常用且经典的相关性排序算法:
- TF-IDF(Term Frequency-Inverse Document Frequency): 用于衡量文档中词语的重要性,考虑了在文档集中的词语频率和逆文档频率。
- BM25(Best Matching 25): 改进的TF-IDF算法,适用于长文档和短查询,引入了饱和函数和参数调整。
1.1.2 传统IR缺点
传统信息检索的优势在于简单、高效,适用于大多数用户的常见查询。然而,它也存在一些限制:
- 歧义性问题:当查询词具有多重含义时,搜索引擎可能会返回与用户意图不符的结果。
- 信息覆盖窄:传统排序主要关注文档与查询的直接相关性,容易导致忽略了更广泛或相关方面的信息。
- 用户需求差异:不同用户对相同查询可能有不同的期望,传统排序难以满足各种用户的多样需求。
- 主题偏向:常常倾向于将热门或主流话题排在前面,而忽略一些特定或较小众的需求。
为了解决这些问题,近年来研究者们开始关注搜索结果多样化,通过考虑相关性和多样性,提供更全面、满足用户多样需求的搜索结果。
1.1.3 列子说明
例如,通过发出一个模棱两可的查询[apple],一个用户可能正在搜索有关IT公司apple的信息,而另一个用户可能正在寻找有关水果的信息。通过发出一个宽泛的查询[harry potter],用户可能希望在这个宽泛的主题中搜索涵盖各个方面的内容,例如[harry potter电影]、[harry potter书籍]或[harry potter角色]。传统的搜索可能无法涵盖高层的这些不同意图。
1.2 搜索结果多样化
1.2.1 基本思想
传统意义上的概率排序原则将返回的结果文档看作是相互独立的,而搜索结果多样化研究强调考虑结果文档之间的差异性,提出了更全面的排序考虑。
它的基本思想是,让搜索引擎返回结果的时候,同时考虑到搜索结果的相关性和多样性.在满足相 关性的同时,尽可能地提升结果的多样性,使搜索结果中包含不同的子话题,覆盖尽可能多的用户需求。
1.2.2 定义
- 基于内容的定义: 强调结果文档之间的多样性,要求每个文档与查询相关,并且彼此之间尽可能不相似。MMR模型。
- 基于新颖性的定义: 要求当前返回的文档不仅与之前的文档不相似,还应包含之前文档没有包含的新信息。
- 基于覆盖度的定义: 强调全体结果文档对查询相关的子话题的覆盖程度,使得结果集能够尽可能覆盖相关子话题。xQuAD模型。
最终目标是给定一个查询,返回一个多样化的搜索结果。搜索结果应满足高相关性、低冗余、覆盖不同方面的信息需求,以最大程度地满足用户多样化的信息需求。
第2章 多样化算法
2.1 算法分类
根据不同解释和方面(子话题)是否显式考虑,以及规则生成方式的不同,搜索结果多样化算法可分为隐式和显式方法、启发式和学习式方法。以下是对这两个维度分类的总结提炼:
1. 隐式 vs. 显式方法:
- 隐式方法(Implicit): 不直接考虑与查询相关的不同解释或方面,主要关注结果文档之间的多样性。
- 显式方法(Explicit): 明确考虑与查询相关的不同解释或方面,追求更全面地覆盖用户的信息需求。
2. 启发式 vs. 学习式方法:
- 启发式方法(Heuristic/Unsupervised): 依赖于人工设定的规则和指导,非监督式的方式生成多样化结果,例如 MMR(最大边界相关性)。
- 学习式方法(Supervised): 使用机器学习模型,依赖于历史数据进行学习,监督式的方式生成多样化结果,例如 SVM-DIV、R-LTR。
总结:
- 多样化方法可能同时是隐式和显式的,以及启发式和学习式的,这两个维度是正交的,即一个方法可以同时具备这两方面的特性。
- 隐式方法注重文档间的多样性,而显式方法更注重涵盖不同查询解释或方面。
- 启发式方法依赖于人工规则,而学习式方法使用机器学习模型,从历史数据中学习生成多样化的排序结果。
除了表中所列算法,还有最新的多样化算法如DESA、GDESA等。
2.2 隐式多样化排序方法
这类方法的特点是:它们将注意力放在文档本身,通过对文档之间差异性进行判断,依次选出下一 个和查询相关并且和已选文档差异性较大的文档,以此来获取与查询意图相关而自身彼此间又具备差异性的结果文档集。
最大边界相关性(MaximalMarginalRelevance,MMR)最早提出了将文档自身的多样性与文档和查询之间的相关性的线性组合用于文档多样化排序的核心思想。
2.3 显式多样化排序方法
显式多样化方法在实际运行的过程中,可以分为两个步骤:首先针对给定的查询,抽取其所对应的子话题;然后利用这些子话题,计算各个文档对不同子话题的覆盖程度,实现多样化排序。
2.3.1 显式多样化排序的子话题抽取
显式多样化模型的表现直接受到子话题抽取结果的影响,实践中较为常用的方法是基于查询建议(如GoogleSuggestions)获取子话题的方法,一些显式多样化模型(如HxQuAD,DSSA等)都使用这一方法来获取子话题。
2.3.2 显式多样化排序模型
代表性模型:xQuAD模型、PM2模型
现有的显式多样化模型仍然是在MMR模型基础上发展而来的,遵循MMR的基本规则,将对结 果文档好坏的评价视作相关性和多样性的线性组合。
2.3.2.1 xQuAD模型
思想:将一个不明确、有歧义的查询分解成一个子查询的集合,每一个子查询对应一种子话题,分别代表原始查询在不同方面的潜在信息需求。2010年。
2.3.2.2 PM2模型
思想:一个多样化的结果文档集,它的文档所包含的子话题分布应该满足一定的比例,结果列表中返回的覆盖某一子话题的文档数,跟这个子话题的权重(即重要程度)应当成正比.
PM2算法选取最佳文档有两个步骤:首先找出当前最应该改善的子话题q,然后下一轮选择偏向于该子话题并且与其他子话题 有一定相关性的文档作为当前最佳文档犱d。
2.3.2.3 基于子话题多层级分类方法的HxQuAD和HPM2模型
提出了对不同子话题进行多层级分类的方法.这种方法按照多个不同层级的粒度对查询拆分子话题,这样可以同时具备粗粒度和细粒度子话题拆分的优点。
HxQuAD模型公式:
2.4 基于监督式学习的多样化排序模型
基于MMR模型的隐式与显式多样化模型,都属于启发式的方法,目前已经得到了广泛的运用.启发式的方法依赖于一系列效用函数,而这些函数只能使用事先选定的少数特征,并且调参成本很高(尤其是在复杂的搜索中).相对于启发式方法,基于机器学习模型的学习式方法可以在函数中自动训练多种特征,并且通过加入新的训练数据就可以自动优化参数。
2.4.1 基于注意力机制的显式多样化学习方法
可以通过优化提高用户意图的覆盖程度,另一方面可以自动地学习文档的多样化函数,并且可以捕获文档和子话题之间的复杂交互.这种框架称为DSSA(Document SequencewithSubtopicAttention).具体地说,为了选择下一个新文档,模型首先考量已选择的文档序列,以捕获它们的内容和与子话题的关系.接下来在已有文档包含的信息的基础上使用注意力机制决定接下来的子话题.
DSSA框架的本质可以进行如下概述:沿着已经选中的文档,模型对过往的文档序列进行编码,然后注意力机制将会监视文档序列满足每一个子话题的程度.如果一个文档覆盖了此前覆盖度较低的子话题,那么这个文档将会被评为高分.最后通过对注意力的适应性学习覆盖多个子话题。
框架可以分为三个主要的部分:(1)文档序列表示组件H,(2)子话题注意力组件A(3)评分组件和
文档序列表示(Document Sequence Representation):采用RNN(循环神经网络)来编码先前文档序列的信息。使用RNN的vanilla cell,通过隐藏状态(hidden state)捕捉文档序列的信息。
子主题注意力(Subtopic Attention):通过考虑先前文档序列的隐藏状态和子主题的分布式表示,计算子主题的注意力。采用两种方式来衡量子主题的重要性,一是通过点积(dot product),二是通过广义操作(general operation)。同时,结合相关性特征和最大池化来增强子主题的注意力。
得分(Scoring):最终得分由相关性得分和多样性得分组成,两者通过权重相加得到。相关性得分包括分布式表示和相关性特征的相似度,以及子主题的相关性。多样性得分通过子主题注意力分布对文档的相关性进行加权组合得到。
参考文献
[1] 窦志成, 秦绪博, 文继荣. 搜索结果多样化研究综述[J]. 计算机学报, 2019, 42(12): 2591-2613.
[2] R. L. Santos, C. Macdonald, and I. Ounis. Exploiting query reformulations for web search result diversification. InWWW, pages 881–890, 2010.
[3] Xubo Qin, Zhicheng Dou, and Ji-Rong Wen. 2020. Diversifying Search Results using Self-Attention Network. In CIKM ’20: The 29th ACM International Conference on Information and Knowledge Management, Virtual Event, Ireland, October 19-23, 2020, Mathieu d’Aquin, Stefan Dietze, Claudia Hauf, Edward Curry, and Philippe Cudré-Mauroux (Eds.). ACM, 1265ś1274. https://doi.org/10.1145/.
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/141285.html