基于大型语言模型的文档扩展预训练用于密集式段落检索
本文提出了coCondenser方法,将Condenser预训练架构与无监督语料级对比损失相结合,减轻了密集检索器对大规模训练数据和数据工程的依赖,并通过实验表明,该方法具有与RocketQA相当的性能。
Aug, 2021
本文提出了一种课程抽样策略来对原始的双编码器的不足进行改进,使得检索模型能够学习将注意力从文档扩展至文档和查询,从而获得高质量的查询知情文档表示,实验结果表明,我们的方法优于以前的密集检索方法。
Dec, 2022
该研究提出了一种称为query2doc的简单而有效的查询扩展方法,通过利用大型语言模型生成伪文档并将其扩展到查询中,从而提高了信息检索系统在ad-hoc IR数据集上的性能,如MS-MARCO和TREC DL。
Mar, 2023
使用大型语言模型进行查询或文档扩展可以提高信息检索的泛化能力,但是否普遍有益或仅在特定环境下有效仍不清楚。本研究通过第一次全面分析基于语言模型的扩展,发现存在查找模型表现与扩展收益之间的强负相关性。我们的结果建议:对于较弱的模型或目标数据集与训练语料库在格式上存在显著差异的情况下,使用扩展;否则,避免扩展以保持相关性信号清晰。
Sep, 2023
通过使用SWIM-IR合成训练数据集,我们研究了多语言密集检索模型的能力,并在三个检索基准上对其进行了全面评估,发现SWIM-IR可以以较低成本替代昂贵的人工标记检索训练数据。
Nov, 2023
密集路径检索(DPR)是提升大型语言模型(LLM)性能的检索增强生成(RAG)范式中的第一步,本研究通过探测、层激活分析和模型编辑的组合,深入研究DPR fine-tuning,发现DPR训练方式中的去中心化存储及其对检索模型的限制,为密集检索提供了几个可能的方向:(1)将更多知识暴露给DPR训练过程以实现更多的去中心化,(2)将事实作为分散表示注入,(3)在检索过程中建模和融入知识的不确定性,以及(4)将内部模型知识直接映射到知识库。
Feb, 2024
运用大语言模型生成的查询扩展可以显著增强信息检索系统,但由于模型的知识有限,导致扩展与检索语料库之间存在错位、产生幻觉和过时信息等问题。为了解决这些挑战,本文提出了基于语料库导向的查询扩展方法,利用大语言模型的相关性评估能力系统地识别初始检索文档中的关键句子,并将这些基于语料库的文本与大语言模型扩展的结果一起用于查询扩展,从而提高查询和目标文档之间的相关性预测。通过广泛的实验证明,该方法在没有任何训练的情况下表现出强大的性能,尤其适用于大语言模型缺乏知识的查询。
Feb, 2024
该研究论文介绍了一种基于模型无关的文档级嵌入框架,通过大型语言模型(LLM)增强,改进了检索模型训练过程中的一些重要组件,如负采样、损失函数等。通过实现这个LLM增强的检索框架,我们显著提高了广泛使用的检索模型(如Bi-encoders和late-interaction models)的效果,并在LoTTE数据集和BEIR数据集上取得了最新的研究成果。
Apr, 2024
本研究解决了传统检索模型在领域准确性和推广能力方面的不足,通过对多种检索任务的全面实证研究,评估了大型语言模型(LLMs)的性能。研究发现,较大的模型和广泛的预训练能够持续提升领域准确性和数据有效性,并在零样本推广和多任务学习等方面展现出显著潜力,这为未来相关领域的研究与开发提供了重要见解。
Aug, 2024
本研究针对传统检索模型在特定领域的准确性和泛化能力不足的问题,采用大型语言模型(LLMs)进行评估,探讨其在密集检索中的独特优势。研究结果表明,较大的模型和更长的预训练时间能够显著提高领域内准确性和数据效率,同时在零样本泛化、长检索等多任务学习中具有重要潜力,这为未来的研究和开发提供了有价值的见解。
Aug, 2024