如何训练你的龙:向通用密集检索的多样化增强
本文提出了无需注释的可扩展伪查询文档对训练方法,包括查询提取和转化查询生成两种。通过使用这些方法,研究展示出比其他方法更好的检索表现。
Dec, 2022
提出一种名为 Disentangled Dense Retrieval(DDR)的新型 Dense Retrieval 框架来支持 DR 模型的有效和灵活的领域自适应,该框架包括一个 Relevance Estimation Module(REM)和几个 Domain Adaption Modules(DAMs),通过使 REM 和 DAMs 分离,DDR 实现了一种灵活的训练范式,在不同的领域和语言中都表现出比强大的 DR 基线更好的排名性能。
Aug, 2022
密集路径检索(DPR)是提升大型语言模型(LLM)性能的检索增强生成(RAG)范式中的第一步,本研究通过探测、层激活分析和模型编辑的组合,深入研究 DPR fine-tuning,发现 DPR 训练方式中的去中心化存储及其对检索模型的限制,为密集检索提供了几个可能的方向:(1)将更多知识暴露给 DPR 训练过程以实现更多的去中心化,(2)将事实作为分散表示注入,(3)在检索过程中建模和融入知识的不确定性,以及(4)将内部模型知识直接映射到知识库。
Feb, 2024
本文通过第一次全面细致的研究,发现了与源数据集相关的关键因素、目标数据集的潜在偏差和现有零样本 DR 模型,从而提供了关于零样本 DR 模型的更好的理解和发展的重要证据。
Apr, 2022
提出了一种新的零样本稠密检索方法 COCO-DR,通过对抗源训练任务和目标场景之间的分布转移来提高稠密检索的泛化能力,使用连续对比学习在目标文本上对语言模型进行预训练以适应目标分布,通过基于分布的鲁棒优化重要样本,在未见过的目标查询上优化模型,COCO-DR 在零样本检索基准 BEIR 上获得了优异表现,其代码和模型可以在指定的网址找到。
Oct, 2022
本文研究多项选择题中混淆项生成的任务,通过引入检索增强的预训练和知识图谱的集成,我们的模型在基准数据集上显著优于现有结果,最佳模型在多项选择题数据集的 F1@3 得分从 14.80 提升到 16.47,在 Sciq 数据集中从 15.92 提升到 16.50。
Jun, 2024
本文提出了一种 Generation-Augmented Retrieval 方法来回答开放领域的问题,这种方法通过发现相关语境并进行文本生成来增强查询,同时证明所生成的语境大大丰富了查询的语义,使用 BM25 稀疏表示与 DPU 等最先进的稠密检索方法相比,GAR 能够获得同等甚至更好的检索效果。本文还将 G.A.R. 与 DPU 相结合,能够在 Natural Questions 和 TriviaQA 数据集上显着提高提取式 QA 基线的性能,并且在使用相同的生成性阅读器时,GAR 频繁地优于其他检索算法。
Sep, 2020
本文提出了一种基于对中间训练模型的关联系统估计和自适应加权的相关性感知对比度学习方法,应用于无监督稠密 Retriever 模型,提高了其检索效果并且表现出很好的 few-shot 学习能力。
Jun, 2023
信息检索一直是信息检索研究的重点之一。近年来,提出了 Dense Retrieval(DR)技术来缓解诸如词汇不匹配问题等固有缺陷,但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数,即不公平的样本,因此提出了 Learning To Retrieve(LTRe)培训技术, 它通过预先构建文档索引,并在每个培训迭代中在没有负样本采样的情况下执行全检索,从而在整个语料库中检索相关文档,实验表明,LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。
Oct, 2020
本研究探讨使用仅通过回答标签的远程监督来训练模型,从大规模语料库中学习寻找证据的能力,提出了一种新的方法(DistDR),该方法在多跳和单跳问答基准测试中与全监督的最先进方法不相上下。
Oct, 2021