学习检索：如何有效高效地训练密集检索模型

Oct, 2020

学习检索：如何有效高效地训练密集检索模型

Learning To Retrieve: How to Train a Dense Retrieval Model Effectively and Efficiently

Jingtao Zhan, Jiaxin Mao, Yiqun Liu, Min Zhang, Shaoping Ma

TL;DR信息检索一直是信息检索研究的重点之一。近年来，提出了 Dense Retrieval（DR）技术来缓解诸如词汇不匹配问题等固有缺陷，但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数，即不公平的样本，因此提出了 Learning To Retrieve（LTRe）培训技术，它通过预先构建文档索引，并在每个培训迭代中在没有负样本采样的情况下执行全检索，从而在整个语料库中检索相关文档，实验表明，LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。

Abstract

Ranking has always been one of the top concerns in information retrieval research. For decades, lexical matching signal has dominated the ad-hoc retrieval process, but it also has inherent defects, such as the vo

information retrieval lexical matching signal dense retrieval ltre training technique

发现论文，激发创造

使用 Hard Negatives 优化稠密检索模型训练

本研究研究了 Dense Retrieval (DR) 模型训练中的不同采样策略，并解释了为何硬负采样优于随机采样。研究发现目前许多基于硬负采样的训练方法存在许多潜在风险，因此本文提出了 Stable Training Algorithm (STAR) 和 Query-side Training Algorithm for Directly Optimizing Ranking Performance (ADORE) 两种训练策略，并在两个公共检索基准数据集上进行了实验，结果表明这两种策略均取得了显著的改进，并且结合这两种策略可以达到最佳性能。

Apr, 2021

高效均衡主题感知采样，有效教授密集检索器

本研究旨在将神经网络模型运用到信息检索模型中，引入了一种名为 TAS-Balanced 的高效查询和平衡边缘抽样技术，结合了成对和批内负面教师，实现了单 GPU 训练的 6 层 DR 模型，以及在 TREC 深度学习基准赛中，取得了领先于其他方法的最佳检索成果和召回率表现。

Apr, 2021

深度检索：学习大规模推荐系统的可检索结构

本文中介绍了 Deep Retrieval (DR) 算法，通过学习可检索结构来获取最优推荐结果，其编码所有候选项入离散潜在空间，接着使用当前模型下的光束搜索来检索前置候选项，以实现重新排名。实验证明，使用 DR 算法，在两个公共数据集上能够实现近乎于暴力基线的准确性，并且在实时生产推荐系统上，高度优化的 DR 算法显著优于 ANN 基准线。DR 是非 ANN 的推荐算法在工业推荐系统规模的首批成功部署之一。

Jul, 2020

面向 LLM 的检索调节器

提出了一种高效的基于大型语言模型的检索调谐器 (LMORT)，通过将检索和生成任务从共享的大型语言模型中分离出来，将检索容量与基础语言模型分开，并以非侵入性的方式协调语言模型的统一检索空间，实现了高效和有效的检索，同时保持了生成能力。在六个 BEIR 数据集上的广泛实验表明，我们的方法在保持语言模型生成能力的同时，可以达到与一些强大的密集检索模型相媲美的零样本检索性能。

Mar, 2024

生成式密集检索：内存可能成为负担

提出了生成检索（GR）和生成稠密检索（GDR）两种机制，通过克服记忆机制的精度、记忆混淆和记忆更新成本等问题，在小规模语料库中实现了较好的检索性能和可扩展性。

Jan, 2024

是否已经到达目的地？一种替换基于词项检索的密集检索系统的决策框架

本论文提出具有一套标准的框架来比较两种检索系统，该框架以除了简单效果措施之外的标准来衡量，旨在评估一个系统取代另一个系统的准备情况。在 Web 排名方案中，最先进的 DR 模型不仅在平均性能方面表现出色，而且通过广泛的保护装置测试，在不同的查询特征，词汇匹配，一般化和回归数量方面展现了稳健性。

Jun, 2022

域和相关性分离建模用于可适应的密集检索

提出一种名为 Disentangled Dense Retrieval（DDR）的新型 Dense Retrieval 框架来支持 DR 模型的有效和灵活的领域自适应，该框架包括一个 Relevance Estimation Module（REM）和几个 Domain Adaption Modules（DAMs），通过使 REM 和 DAMs 分离，DDR 实现了一种灵活的训练范式，在不同的领域和语言中都表现出比强大的 DR 基线更好的排名性能。

Aug, 2022

基于预训练语言模型的密集文本检索：一项调查研究

本文介绍了近期基于 PLMs 的 dense retrieval 的相关研究进展，从架构、训练、索引、集成四个方面总结了主流技术，并提供了网站和代码库等丰富资源以支持读者的研究工作。

Nov, 2022

开放领域问答的低资源稠密检索：一份综合调查报告

本文探讨了基于预训练语言模型的致密检索方法，并提供了在低资源情境下实现致密检索的主流技术概览，根据技术需要的资源将其分为文档、文档和问题，以及文档和问题答案对三个类别，并对每个技术的算法、开放问题和优缺点进行了介绍和总结，最后提出了未来研究的方向。

Aug, 2022

词汇加速的密集检索

LADR 是一种简单而有效的方法，通过利用词法检索技术来提高现有的密集检索模型的效率，同时不影响检索效果，建立了一种新的近似 k 最近邻技术的密集检索效率 - 效果 Pareto 边界。

Jul, 2023