ACLNov, 2022

通过填补单词表和词频间隙实现稀疏检索的无监督领域自适应

TL;DR本文提出了一种使用预训练语言模型的信息检索模型 SPLADE,介绍了它在处理实际场景中的鲁棒性及其存在的问题,最后提出了一种无监督领域自适应方法,通过补充语料库中的低频词汇并使用逆文档频率权重来提高检索性能。实验结果表明,该方法在具有大量词汇差距的数据集上优于当前最先进的领域自适应方法,并与 BM25 相结合取得了最新的性能结果。