Jul, 2023

IncDSI: 增量更新文档检索

TL;DRDifferentiable Search Index 是最近提出的一种用于文档检索的范例,通过将文档语料库的信息编码在神经网络的参数中,并直接将查询映射到相应的文档。本文提出了一种名为 IncDSI 的方法,可以在实时环境下添加文档(每个文档约 20-50ms),而无需对整个数据集或其部分进行重新训练。我们将文档添加视为一个约束优化问题,以最小程度地修改网络参数。尽管速度快了数个数量级,我们的方法与在整个数据集上重新训练模型的方法具有竞争力,并能够实时更新的文档检索系统的开发。IncDSI 的代码可在此 URL 获得。