近似最近邻搜索中超参数的高效自动调整
提出一种新的无需数据空间分割的随机化算法来避免由于数据维度过高而导致的数据检索问题,并通过理论分析和实验结果来证明这种算法在数据近似性、速度和空间效率等方面优于传统的局部敏感哈希算法(LSH)
Dec, 2015
我们提出了一种新的K最近邻搜索方法,它基于可控层次结构的可导航小世界图(Hierarchical NSW,HNSW)。所提出的解决方案是完全基于图的,无需任何额外的搜索结构,在多层结构中进行搜索可以提高性能,同时利用启发式算法选择近邻可以在高召回率和高密集度的情况下显著提高性能。
Mar, 2016
本文提出了一种基于KNN图的近似最近邻搜索算法EFANNA,通过提供NN扩展的良好初始化方式,很好地解决了收敛到局部最优解和K近邻图构建耗时问题。实验证明,EFANNA算法在近似最近邻搜索和K近邻图的构建两个方面均优于现有的算法,是目前最快的算法,同时已在Github上发布了EFANNA库。
Sep, 2016
该研究介绍了一种名为优先的动态连续索引(Prioritized DCI)的变体,用于k近邻搜索,并且相对于现有方法(如局部敏感哈希, LSH),优先DCI通过线性增加空间而不是查询时间的依赖来解决了维数灾难的问题,并在内在维数方面展现了显着的改进。
Mar, 2017
本研究提出一种新的框架用于构建空间划分,将问题转化为平衡图划分和监督分类,并结合KaHIP图分区器和神经网络,实现了一种新的分区过程称为神经局部敏感哈希(Neural LSH),实验证明Neural LSH的分区在标准最近邻搜索(NNS)基准测试中,始终优于基于量化和树的方法,以及经典的数据无关LSH。
Jan, 2019
本文提出了一种名为SPANN的内存磁盘混合索引和搜索系统,它采用倒排索引方法论,将单元点存储在内存中,较大的单元列表存储在磁盘中,采用分层平衡聚类算法来平衡单元列表的长度,采用查询感知方案动态修剪不必要的单元列表查询,实验证明该系统相较于现有的近似最近邻搜索(ANNS)解决方案DiskANN 在处理数十亿数据集时,可以用相同的内存成本实现同样的召回率质量,并且速度快 2 倍以上 。
Nov, 2021
本文介绍一种使用邻居图和优化元启发式算法进行最近邻搜索的自动调谐算法,以自动产生品质和搜索速度的帕累托最优搜索;同时,也使用相同策略产生实现最小品质的索引。我们的方法被描述并与其他最先进的相似度搜索方法进行了基准测试,展示了便利性和竞争力。
Jan, 2022
通过黑盒优化算法,本研究引入了一种方法来调整现成的基于图的索引的性能,重点关注向量的维度、数据库大小和图遍历的入口。我们将这种方法应用于SISAP 2023索引挑战的任务A,在10M和30M轨道上获得了第二名,与蛮力方法相比,显著提高了性能。该研究为基于图的索引提供了一种普适的调整方法,并推广到更广泛的用途。
Sep, 2023
图形化相似最近邻搜索算法的最坏情况性能研究,以HNSW、NSG和DiskANN为例,发现其实际查询时间与实例大小成线性关系,并证明其具有常数近似比和多对数查询时间的边界维数据集。
Oct, 2023
近似k最近邻(ANN)方法常用于大规模高维数据集上的信息挖掘和机器学习,针对动态数据集和在线特征学习等应用,我们通过实证评估了5种流行的ANN方法,结果表明在动态数据集中,k-d树方法不适用,并且在在线数据收集和在线特征学习方面,层次可导航小世界图方法和可扩展最近邻方法分别比基线方法更快速。
Apr, 2024