流行近似最近邻搜索实现的最坏情况性能:保证和限制
本文综述了 13 个代表性的基于图的近似最近邻搜索算法,通过新的分类和细粒度的流程进行了比较分析和实验评估。该研究提供了优化算法的原则并设计了一种优化方法,可以优于现有的基于图的近似最近邻算法。同时还提供了关于有前途的研究方向和适合不同领域从业者使用的算法的经验建议。
Jan, 2021
本文详细评估了 16 种不同算法在 20 个不同数据集、多个评估指标和不同查询工作负载下的性能表现,并提出了一种新的方法以提高查询效率和召回率。
Oct, 2016
我们提出了一种新的 K 最近邻搜索方法,它基于可控层次结构的可导航小世界图(Hierarchical NSW,HNSW)。所提出的解决方案是完全基于图的,无需任何额外的搜索结构,在多层结构中进行搜索可以提高性能,同时利用启发式算法选择近邻可以在高召回率和高密集度的情况下显著提高性能。
Mar, 2016
近似 k 最近邻(ANN)方法常用于大规模高维数据集上的信息挖掘和机器学习,针对动态数据集和在线特征学习等应用,我们通过实证评估了 5 种流行的 ANN 方法,结果表明在动态数据集中,k-d 树方法不适用,并且在在线数据收集和在线特征学习方面,层次可导航小世界图方法和可扩展最近邻方法分别比基线方法更快速。
Apr, 2024
通过使用现代硬件的高性能能力,我们的方法在构建接近图时,构建时间比 HNSW 快 2.2~27 倍;在大批量查询吞吐量方面,在 90% 至 95% 召回范围内,我们的方法比 HNSW 快 33~77 倍,并且比 GPU 的最新实现快 3.8~8.8 倍;对于单个查询,在 95% 召回率时我们的方法比 HNSW 快 3.4~53 倍。
Aug, 2023
本文提出了一组基于可扩展性的原则度量 ANNS 算法的评估标准,包括并行性能、建树时间、性能随数据集增加的扩展性以及机器无关的度量方法等,并优化了四种基于图的算法,提供了一种通用的无锁的递增 ANNS 图算法框架来应对现代应用所需的更高难度的准确性评价
May, 2023
本文提出了一种针对欧氏空间的新的 “低质量” 嵌入定义,并应用随机投影将问题降低到与目标空间中近似最近邻的 $k$ 个近似最近邻象限所对应的原像空间的维度成反比的空间中;通过 BBD 树等数据结构,可有效检索这 $k$ 个近似最近邻点。在计算近似近邻问题时,此方法可以获得所需的线性空间和时间复杂度为 $O (d n^{ ho})$ 的查询时间,并可直接解决 approximate nearest neighbor problem 问题,具有比基于 BBD 树的方法更好的查询时间指数。
Dec, 2014
通过引入具有概率保证的方法,该研究旨在增强基于图的最近邻搜索中的路由,提出了 PEOs,一种有效地确定图中应考虑的邻居进行准确距离计算的新方法,实验证明其在常用图索引(HNSW)上可以提高吞吐量 1.6 到 2.5 倍,并且其效率始终比最先进的路由技术提高 1.1 到 1.4 倍。
Feb, 2024
本文提出了一种可以在实时反映文本更新的图形近似最近邻搜索方法,使用 update rules 实现了 FreshDiskANN 系统,能够在单个工作站上索引十亿个点,支持实时插入、删除和搜索,优化了索引保持新鲜的成本。
May, 2021
本文提出了一种名为 SPANN 的内存磁盘混合索引和搜索系统,它采用倒排索引方法论,将单元点存储在内存中,较大的单元列表存储在磁盘中,采用分层平衡聚类算法来平衡单元列表的长度,采用查询感知方案动态修剪不必要的单元列表查询,实验证明该系统相较于现有的近似最近邻搜索(ANNS)解决方案 DiskANN 在处理数十亿数据集时,可以用相同的内存成本实现同样的召回率质量,并且速度快 2 倍以上 。
Nov, 2021