Dec, 2021

大型双编码器是可推广的检索器

TL;DR本文通过对双编码器进行多阶段训练,并在保持瓶颈嵌入大小不变的同时扩大了双编码器模型的规模,挑战了一种广为流传的观念,即双编码器在一个域上训练后,往往无法推广到其他域的检索任务中。结果表明,我们的双编码器模型 ——GTR,尤其是在域外泛化方面,取得了显著的检索性能提高,并且在 BEIR 数据集上明显优于现有的稀疏和密集的检索模型。最出乎意料的是,我们的消融研究发现,GTR 在数据效率方面非常高效,只需要 MS Marco 10%的监督数据即可实现最佳的跨域检索性能。