AugTriever：可扩展的数据增强无监督密集检索

Dec, 2022

AugTriever：可扩展的数据增强无监督密集检索

AugTriever: Unsupervised Dense Retrieval by Scalable Data Augmentation

Rui Meng, Ye Liu, Semih Yavuz, Divyansh Agarwal, Lifu Tu...

TL;DR本文提出了无需注释的可扩展伪查询文档对训练方法，包括查询提取和转化查询生成两种。通过使用这些方法，研究展示出比其他方法更好的检索表现。

Abstract

dense retrievers have made significant strides in text retrieval and open-domain question answering, even though most achievements were ma

dense retrievers text retrieval open-domain question answering unsupervised methods pseudo query-document pairs

发现论文，激发创造

如何训练你的龙：向通用密集检索的多样化增强

通过数据增强、对比学习等方法，本研究提出了一种新的稠密检索算法 DRAGON，使其在有监督检索和零样本检索方面均达到了最新水平，并与复杂的后期交互模型竞争。

Feb, 2023

无监督学习检索文章段落

本文介绍了一种基于无监督预训练的 ODQA 方法，通过 recurrent span retrieval 从文档中创建伪例子进行对比学习，控制 pseudo 查询和相关段落之间的术语重叠，从而允许模拟它们之间的词汇和语义关系，得到命名为 “Spider” 的模型，具有出色的性能，且不需要任何有标签的训练数据。

Dec, 2021

具有相关感知对比预训练的无监督密集检索

本文提出了一种基于对中间训练模型的关联系统估计和自适应加权的相关性感知对比度学习方法，应用于无监督稠密 Retriever 模型，提高了其检索效果并且表现出很好的 few-shot 学习能力。

Jun, 2023

噪声自训练与合成查询的密集检索

使用新颖的带有合成查询的嘈杂自我训练框架，证明了神经检索器可以在没有依赖任何外部模型的情况下以自我进化的方式得到改进，实验证明我们的方法在常见领域（如 MS-MARCO）和领域外（即 BEIR）的检索基准上持续改进。进一步扩展该框架来进行 reranker 训练表明所提出的方法是通用的，在各个领域的任务上都能产生额外的收益。

Nov, 2023

开放领域问答的增强生成检索

本文提出了一种 Generation-Augmented Retrieval 方法来回答开放领域的问题，这种方法通过发现相关语境并进行文本生成来增强查询，同时证明所生成的语境大大丰富了查询的语义，使用 BM25 稀疏表示与 DPU 等最先进的稠密检索方法相比，GAR 能够获得同等甚至更好的检索效果。本文还将 G.A.R. 与 DPU 相结合，能够在 Natural Questions 和 TriviaQA 数据集上显着提高提取式 QA 基线的性能，并且在使用相同的生成性阅读器时，GAR 频繁地优于其他检索算法。

Sep, 2020

端到端的神经检索器训练，用于开放领域的问答

本篇论文通过系统地研究检索器的预训练，提出了一种利用反向填空任务和掩盖显著跨度的无监督预训练方法，并在问题 - 上下文对上进行有监督微调的方法。此外还探讨了两种 OpenQA 模型的端对端有监督培训方法，并展示了这些方法在性能方面相对于较小模型的一致性提升。实验结果表明这些方法效果显著优于现有的一些模型。

Jan, 2021

使用远程监督的证据检索，无需证据标记即可实现问答

本研究探讨使用仅通过回答标签的远程监督来训练模型，从大规模语料库中学习寻找证据的能力，提出了一种新的方法（DistDR），该方法在多跳和单跳问答基准测试中与全监督的最先进方法不相上下。

Oct, 2021

简单实体中心问题挑战密集检索器

本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题，并探讨了两种解决方案：第一种解决方法是数据扩充无法解决广义化问题，第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。

Sep, 2021

大规模学习短语的密集表示

该研究展示了从阅读理解任务的监督学习中学习到短语的密集表示，并使用负采样方法提高性能，能够取代当前依赖于稀疏表示的短语检索模型，实现更好的开放域问答准确性并被用作密集知识库。

Dec, 2020

面向任务的对话中基于非结构化知识的高效检索增强生成

本文总结了我们在第九届对话系统技术挑战赛（DSTC 9）第一轨中的工作，我们提出了一种基于层次分类和序列嵌入的检索和生成方法，以实现针对任务导向对话中利用非结构化文本信息的回答生成。

Feb, 2021