SIGIRApr, 2022

第一阶段检索的复合编码稀疏自编码器

TL;DR本文提出了一种用于文档表示的复合码稀疏自动编码器(CCSA)方法,以近似最近邻(ANN)搜索为基础。该模型可以替代传统的词袋模型,并可与最近的基于图的 ANN 技术相结合。经实验证明,CCSA 在给定数据集上优于 IVF with product quantization,同时,CCSA 的二进制量化对于基于图的 HNSW 方法的索引大小和内存使用有好处,并保持良好的召回率和 MRR。