Query2doc: 大语言模型的查询扩展
本研究提出了一种基于大型语言模型的互相验证框架,用于查询扩展,通过检索和生成的文件相互补充来改善查询扩展的效果,并在三个信息检索数据集上进行了大量实验证实,结果显示我们的方法明显优于其他对照组。
Oct, 2023
该研究提出了一种将搜索引擎文档扩展为与其内容相关或代表性术语的简单方法,并利用基于 Vanilla 序列到序列模型的数据集对其进行扩展,结合高效的重新排序组件,实现了两种检索任务的最高效结果。
Apr, 2019
本文提出了一种结合了有效过滤策略和基于上下文生成概率的检索文档融合的词汇匹配的方法,在减小索引大小的同时,提高了检索准确性;同时,在 end-to-end QA 模型中,该方法也能取得最高的 Exact-Match 分数。
Oct, 2022
运用大语言模型生成的查询扩展可以显著增强信息检索系统,但由于模型的知识有限,导致扩展与检索语料库之间存在错位、产生幻觉和过时信息等问题。为了解决这些挑战,本文提出了基于语料库导向的查询扩展方法,利用大语言模型的相关性评估能力系统地识别初始检索文档中的关键句子,并将这些基于语料库的文本与大语言模型扩展的结果一起用于查询扩展,从而提高查询和目标文档之间的相关性预测。通过广泛的实验证明,该方法在没有任何训练的情况下表现出强大的性能,尤其适用于大语言模型缺乏知识的查询。
Feb, 2024
使用大型语言模型进行查询或文档扩展可以提高信息检索的泛化能力,但是否普遍有益或仅在特定环境下有效仍不清楚。本研究通过第一次全面分析基于语言模型的扩展,发现存在查找模型表现与扩展收益之间的强负相关性。我们的结果建议:对于较弱的模型或目标数据集与训练语料库在格式上存在显著差异的情况下,使用扩展;否则,避免扩展以保持相关性信号清晰。
Sep, 2023
该论文介绍了一种基于词嵌入的 query expansion 方法,使用人工神经网络分类器来预测 query expansion 词汇的有用性,实验结果表明该方法显著提高了检索性能。
Nov, 2018
本文提出了一个以生成扩展查询为基础的框架,利用强大的代码生成模型来提高代码检索任务。该方法优化了嵌入到潜空间的文档 - 代码对,利用生成的代码片段将文档查询扩展与目标代码片段匹配。该方法在 CodeSearchNet 数据集上实验,并取得了迄今为止最好的性能结果。
Dec, 2022
本论文提供了一种使用 BERT 模型选择相关文档块进行扩展的新型查询扩展模型,能够在标准 TREC Robust04 测试集上显著优于 BERT-Large 模型,有助于解决查询扩展方法引入不相关信息的问题。
Sep, 2020
本文提出了一种课程抽样策略来对原始的双编码器的不足进行改进,使得检索模型能够学习将注意力从文档扩展至文档和查询,从而获得高质量的查询知情文档表示,实验结果表明,我们的方法优于以前的密集检索方法。
Dec, 2022