零样本稠密检索的全面探讨

Apr, 2022

A Thorough Examination on Zero-shot Dense Retrieval

Ruiyang Ren, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Qifei Wu...

TL;DR本文通过第一次全面细致的研究，发现了与源数据集相关的关键因素、目标数据集的潜在偏差和现有零样本 DR 模型，从而提供了关于零样本 DR 模型的更好的理解和发展的重要证据。

Abstract

Recent years have witnessed the significant advance in dense retrieval (DR) based on powerful pre-trained language models (PLM). dr models

dense retrieval pre-trained language models zero-shot retrieval key factors dr models

发现论文，激发创造

选择用于零样本搜索的密集检索器

选择在没有标签可用的新收集中搜索时使用的密集检索模型是一个重要而困难的问题，因为不同的密集检索模型在不同数据集上的搜索效果差异很大。我们建议信息检索社区考虑这个问题，并提供在无需标签进行评估的零样本设置中选择高效密集检索模型的可靠方法。

Sep, 2023

重新思考稠密检索的少样本能力

本文提出 FewDR 数据集和统一评估基准，并消除了现有方法中出现的一些问题。经实证结果表明，当前最先进的 DR 模型仍然在标准 few-shot 场景中面临挑战。

Apr, 2023

开放领域问答的低资源稠密检索：一份综合调查报告

本文探讨了基于预训练语言模型的致密检索方法，并提供了在低资源情境下实现致密检索的主流技术概览，根据技术需要的资源将其分为文档、文档和问题，以及文档和问题答案对三个类别，并对每个技术的算法、开放问题和优缺点进行了介绍和总结，最后提出了未来研究的方向。

Aug, 2022

冻结的预训练语言模型可用于实体中心问题的零 - shot 神经检索吗？

本文提出了一种基于预训练语言模型的检索方法，通过利用领域中已有的实体信息来实现领域内检索。实验结果表明，在如 Wikipedia 等领域中，本文提出的检索方法在实体相关问题上的效果要优于传统的 DPR 方法，并且可以在不进行微调的情况下有效利用预训练语言模型的知识资源，从而在实体名称包含常用词的情况下表现出比 BM25 更好的性能。

Mar, 2023

基于预训练语言模型的密集文本检索：一项调查研究

本文介绍了近期基于 PLMs 的 dense retrieval 的相关研究进展，从架构、训练、索引、集成四个方面总结了主流技术，并提供了网站和代码库等丰富资源以支持读者的研究工作。

Nov, 2022

不让任何参数落下：蒸馏和模型大小对零 - shot 检索的影响

本研究表明，在信息检索任务中，经过裁剪的小型语言模型是大型、速度慢得多的模型的强有力竞争者。在信息检索实际应用中，由于延迟限制，压缩和稠密模型成为首选。然而，通过实验，我们发现模型大小和早期查询文档交互对检索模型的泛化能力起着重要作用。增加模型大小在相同领域的测试数据集上几乎没有增益，但在从未在训练中见过的新领域上存在更大的提高。此外，我们还显示 reranker 在几个任务中大大优于其大小相似的稠密模型。我们的最大 reranker 在 Benchmark-IR（BEIR）的 18 个数据集中的 12 个数据集中达到了最先进水平，平均超过了以前的最优结果 3 个点。最后，我们证实，域内有效性不是零 - shot 有效性的好指标。

Jun, 2022

COCO-DR: 针对零样本稠密检索中的分布偏移问题，采用对比学习和分布鲁棒学习

提出了一种新的零样本稠密检索方法 COCO-DR，通过对抗源训练任务和目标场景之间的分布转移来提高稠密检索的泛化能力，使用连续对比学习在目标文本上对语言模型进行预训练以适应目标分布，通过基于分布的鲁棒优化重要样本，在未见过的目标查询上优化模型，COCO-DR 在零样本检索基准 BEIR 上获得了优异表现，其代码和模型可以在指定的网址找到。

Oct, 2022

学习检索：如何有效高效地训练密集检索模型

信息检索一直是信息检索研究的重点之一。近年来，提出了 Dense Retrieval（DR）技术来缓解诸如词汇不匹配问题等固有缺陷，但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数，即不公平的样本，因此提出了 Learning To Retrieve（LTRe）培训技术，它通过预先构建文档索引，并在每个培训迭代中在没有负样本采样的情况下执行全检索，从而在整个语料库中检索相关文档，实验表明，LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。

Oct, 2020

如何训练你的龙：向通用密集检索的多样化增强

通过数据增强、对比学习等方法，本研究提出了一种新的稠密检索算法 DRAGON，使其在有监督检索和零样本检索方面均达到了最新水平，并与复杂的后期交互模型竞争。

Feb, 2023

零样本检索：用搜索引擎增强预训练模型

使用 NLP 和多模式学习，该论文介绍了如何通过搜索引擎检索来增强预训练模型，从而在测试时从互联网中检索到有用的数据，并更新模型以解决模型的不确定性，取得了零样本性能的显著改进。

Nov, 2023