Oct, 2020

学习检索:如何有效高效地训练密集检索模型

TL;DR信息检索一直是信息检索研究的重点之一。近年来,提出了 Dense Retrieval(DR)技术来缓解诸如词汇不匹配问题等固有缺陷,但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数,即不公平的样本,因此提出了 Learning To Retrieve(LTRe)培训技术, 它通过预先构建文档索引,并在每个培训迭代中在没有负样本采样的情况下执行全检索,从而在整个语料库中检索相关文档,实验表明,LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。