SIGIRApr, 2021

使用 Hard Negatives 优化稠密检索模型训练

TL;DR本研究研究了 Dense Retrieval (DR) 模型训练中的不同采样策略,并解释了为何硬负采样优于随机采样。研究发现目前许多基于硬负采样的训练方法存在许多潜在风险,因此本文提出了 Stable Training Algorithm (STAR) 和 Query-side Training Algorithm for Directly Optimizing Ranking Performance (ADORE) 两种训练策略,并在两个公共检索基准数据集上进行了实验,结果表明这两种策略均取得了显著的改进,并且结合这两种策略可以达到最佳性能。