Dec, 2023

ESPN:高效内存多向量信息检索

TL;DR最近大规模语言模型在信息检索任务中显示出了显著的有效性。然而,多向量模型在检索索引的存储和内存方面需要更大的需求,这使得多向量IR模型的可扩展性逐渐面临挑战。本文介绍了一种名为ESPN的存储引入的嵌入式网络模型,通过将整个重排序嵌入表存储在SSD中并减少内存需求5-16倍。我们设计了一个软件预取器,其命中率超过90%,从而将基于SSD的检索性能提高了最高达6.4倍,并且在大查询批处理的情况下能够保持接近内存级别的查询延迟。