May, 2024

基于二进制符号索引的半参数检索

TL;DR信息检索的研究领域逐渐扩大,从搜索服务发展为各种高级应用的关键组成部分。为了提高检索效率、成本效益和实时性,本文介绍了一种名为 Semi-parametric Vocabulary Disentangled Retrieval(SVDR)的新型半参数化检索框架。在三个开放域问答基准测试中,使用整个维基百科语料库进行评估,SVDR 始终显示出卓越性能。它使用基于嵌入的索引在 top-1 检索准确率上比基于嵌入的检索方法 DPR 高出 3%,使用基于二进制令牌的索引在 top-1 准确率上比 BM25 高出 9%。采用二进制令牌索引的方式将索引准备时间从 30 个 GPU 小时减少到仅需 2 个 CPU 小时,存储空间从 31 GB 减少到 2 GB,实现了 90%的降低,相较于基于嵌入的索引。