通过数据增强、对比学习等方法,本研究提出了一种新的稠密检索算法 DRAGON,使其在有监督检索和零样本检索方面均达到了最新水平,并与复杂的后期交互模型竞争。
Feb, 2023
本文介绍了一种基于无监督预训练的 ODQA 方法,通过 recurrent span retrieval 从文档中创建伪例子进行对比学习,控制 pseudo 查询和相关段落之间的术语重叠,从而允许模拟它们之间的词汇和语义关系,得到命名为 “Spider” 的模型,具有出色的性能,且不需要任何有标签的训练数据。
Dec, 2021
本文提出了一种基于对中间训练模型的关联系统估计和自适应加权的相关性感知对比度学习方法,应用于无监督稠密 Retriever 模型,提高了其检索效果并且表现出很好的 few-shot 学习能力。
Jun, 2023
使用新颖的带有合成查询的嘈杂自我训练框架,证明了神经检索器可以在没有依赖任何外部模型的情况下以自我进化的方式得到改进,实验证明我们的方法在常见领域(如 MS-MARCO)和领域外(即 BEIR)的检索基准上持续改进。进一步扩展该框架来进行 reranker 训练表明所提出的方法是通用的,在各个领域的任务上都能产生额外的收益。
Nov, 2023
本文提出了一种 Generation-Augmented Retrieval 方法来回答开放领域的问题,这种方法通过发现相关语境并进行文本生成来增强查询,同时证明所生成的语境大大丰富了查询的语义,使用 BM25 稀疏表示与 DPU 等最先进的稠密检索方法相比,GAR 能够获得同等甚至更好的检索效果。本文还将 G.A.R. 与 DPU 相结合,能够在 Natural Questions 和 TriviaQA 数据集上显着提高提取式 QA 基线的性能,并且在使用相同的生成性阅读器时,GAR 频繁地优于其他检索算法。
Sep, 2020
本篇论文通过系统地研究检索器的预训练,提出了一种利用反向填空任务和掩盖显著跨度的无监督预训练方法,并在问题 - 上下文对上进行有监督微调的方法。此外还探讨了两种 OpenQA 模型的端对端有监督培训方法,并展示了这些方法在性能方面相对于较小模型的一致性提升。实验结果表明这些方法效果显著优于现有的一些模型。
Jan, 2021
本研究探讨使用仅通过回答标签的远程监督来训练模型,从大规模语料库中学习寻找证据的能力,提出了一种新的方法(DistDR),该方法在多跳和单跳问答基准测试中与全监督的最先进方法不相上下。
Oct, 2021
本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题,并探讨了两种解决方案:第一种解决方法是数据扩充无法解决广义化问题,第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。
Sep, 2021
该研究展示了从阅读理解任务的监督学习中学习到短语的密集表示,并使用负采样方法提高性能,能够取代当前依赖于稀疏表示的短语检索模型,实现更好的开放域问答准确性并被用作密集知识库。
Dec, 2020
本文总结了我们在第九届对话系统技术挑战赛(DSTC 9)第一轨中的工作,我们提出了一种基于层次分类和序列嵌入的检索和生成方法,以实现针对任务导向对话中利用非结构化文本信息的回答生成。
Feb, 2021