Nov, 2021

SPANN:高效的十亿级近似最近邻搜索

TL;DR本文提出了一种名为SPANN的内存磁盘混合索引和搜索系统,它采用倒排索引方法论,将单元点存储在内存中,较大的单元列表存储在磁盘中,采用分层平衡聚类算法来平衡单元列表的长度,采用查询感知方案动态修剪不必要的单元列表查询,实验证明该系统相较于现有的近似最近邻搜索(ANNS)解决方案DiskANN 在处理数十亿数据集时,可以用相同的内存成本实现同样的召回率质量,并且速度快 2 倍以上 。