使用 Hard Negatives 优化稠密检索模型训练

SIGIRApr, 2021

使用 Hard Negatives 优化稠密检索模型训练

Optimizing Dense Retrieval Model Training with Hard Negatives

Jingtao Zhan, Jiaxin Mao, Yiqun Liu, Jiafeng Guo, Min Zhang...

TL;DR本研究研究了 Dense Retrieval (DR) 模型训练中的不同采样策略，并解释了为何硬负采样优于随机采样。研究发现目前许多基于硬负采样的训练方法存在许多潜在风险，因此本文提出了 Stable Training Algorithm (STAR) 和 Query-side Training Algorithm for Directly Optimizing Ranking Performance (ADORE) 两种训练策略，并在两个公共检索基准数据集上进行了实验，结果表明这两种策略均取得了显著的改进，并且结合这两种策略可以达到最佳性能。

Abstract

Ranking has always been one of the top concerns in information retrieval researches. For decades, the lexical matching signal has dominated the ad-hoc retrieval process, but solely using this signal in retrieval may cause the vocabulary mismatch problem. In recent years, with the development of representation learning techniques, many researchers turn to Den

dense retrieval (dr) models training strategies hard negative sampling stable training algorithm (star)query-side training algorithm (adore)

发现论文，激发创造

学习检索：如何有效高效地训练密集检索模型

信息检索一直是信息检索研究的重点之一。近年来，提出了 Dense Retrieval（DR）技术来缓解诸如词汇不匹配问题等固有缺陷，但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数，即不公平的样本，因此提出了 Learning To Retrieve（LTRe）培训技术，它通过预先构建文档索引，并在每个培训迭代中在没有负样本采样的情况下执行全检索，从而在整个语料库中检索相关文档，实验表明，LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。

Oct, 2020

高效均衡主题感知采样，有效教授密集检索器

本研究旨在将神经网络模型运用到信息检索模型中，引入了一种名为 TAS-Balanced 的高效查询和平衡边缘抽样技术，结合了成对和批内负面教师，实现了单 GPU 训练的 6 层 DR 模型，以及在 TREC 深度学习基准赛中，取得了领先于其他方法的最佳检索成果和召回率表现。

Apr, 2021

域和相关性分离建模用于可适应的密集检索

提出一种名为 Disentangled Dense Retrieval（DDR）的新型 Dense Retrieval 框架来支持 DR 模型的有效和灵活的领域自适应，该框架包括一个 Relevance Estimation Module（REM）和几个 Domain Adaption Modules（DAMs），通过使 REM 和 DAMs 分离，DDR 实现了一种灵活的训练范式，在不同的领域和语言中都表现出比强大的 DR 基线更好的排名性能。

Aug, 2022

从蒸馏到硬负采样：使稀疏神经 IR 模型更加有效

本文研究基于稀疏表达的 SPLADE 检索器的训练提升方法，结合蒸馏、硬负例挖掘以及预训练语言模型初始化，证明其在效率和效果方面同样具有优势，能够在领域内和零样本情况下实现最先进的结果。

May, 2022

密集文本检索的近似最近邻负对比学习

本文提出了一种新型的训练机制 --- ANCE (Approximate nearest neighbor Negative Contrastive Estimation), 它使用了一个近似最近邻索引来构建负面示例，以更好地解决稠密检索中负面实例训练不足的问题，并且通过实验证明了其在 BERT 模型上的有效性能达到了最佳效果。

Jul, 2020

开放领域问答的低资源稠密检索：一份综合调查报告

本文探讨了基于预训练语言模型的致密检索方法，并提供了在低资源情境下实现致密检索的主流技术概览，根据技术需要的资源将其分为文档、文档和问题，以及文档和问题答案对三个类别，并对每个技术的算法、开放问题和优缺点进行了介绍和总结，最后提出了未来研究的方向。

Aug, 2022

重新思考稠密检索的少样本能力

本文提出 FewDR 数据集和统一评估基准，并消除了现有方法中出现的一些问题。经实证结果表明，当前最先进的 DR 模型仍然在标准 few-shot 场景中面临挑战。

Apr, 2023

是否已经到达目的地？一种替换基于词项检索的密集检索系统的决策框架

本论文提出具有一套标准的框架来比较两种检索系统，该框架以除了简单效果措施之外的标准来衡量，旨在评估一个系统取代另一个系统的准备情况。在 Web 排名方案中，最先进的 DR 模型不仅在平均性能方面表现出色，而且通过广泛的保护装置测试，在不同的查询特征，词汇匹配，一般化和回归数量方面展现了稳健性。

Jun, 2022

深度检索：学习大规模推荐系统的可检索结构

本文中介绍了 Deep Retrieval (DR) 算法，通过学习可检索结构来获取最优推荐结果，其编码所有候选项入离散潜在空间，接着使用当前模型下的光束搜索来检索前置候选项，以实现重新排名。实验证明，使用 DR 算法，在两个公共数据集上能够实现近乎于暴力基线的准确性，并且在实时生产推荐系统上，高度优化的 DR 算法显著优于 ANN 基准线。DR 是非 ANN 的推荐算法在工业推荐系统规模的首批成功部署之一。

Jul, 2020

生成式密集检索：内存可能成为负担

提出了生成检索（GR）和生成稠密检索（GDR）两种机制，通过克服记忆机制的精度、记忆混淆和记忆更新成本等问题，在小规模语料库中实现了较好的检索性能和可扩展性。

Jan, 2024