最近邻搜索的学习空间划分

Jan, 2019

Learning Sublinear-Time Indexing for Nearest Neighbor Search

Yihe Dong, Piotr Indyk, Ilya Razenshteyn, Tal Wagner

TL;DR本研究提出一种新的框架用于构建空间划分，将问题转化为平衡图划分和监督分类，并结合KaHIP图分区器和神经网络，实现了一种新的分区过程称为神经局部敏感哈希（Neural LSH），实验证明Neural LSH的分区在标准最近邻搜索（NNS）基准测试中，始终优于基于量化和树的方法，以及经典的数据无关LSH。

Abstract

Most of the efficient sublinear-time indexing algorithms for the high-dimensional nearest neighbor search problem (NNS) are based on space partitions of the ambient space $\mathbb{R}^d$. Inspired by recent theore

发现论文，激发创造

学习哈希在大数据索引中的应用 - 一份综述

本研究综述了基于哈希技术的ANN搜索的发展历程和应用，重点介绍了基于数据驱动学习方法和深度学习模型的哈希应用技术，分析了优缺点，并探讨了未来的研究趋势。

Sep, 2015

基于动态连续索引的快速K最近邻搜索

提出一种新的无需数据空间分割的随机化算法来避免由于数据维度过高而导致的数据检索问题，并通过理论分析和实验结果来证明这种算法在数据近似性、速度和空间效率等方面优于传统的局部敏感哈希算法（LSH）

Dec, 2015

基于优先的DCI的快速k近邻搜索

该研究介绍了一种名为优先的动态连续索引（Prioritized DCI）的变体，用于k近邻搜索，并且相对于现有方法（如局部敏感哈希, LSH），优先DCI通过线性增加空间而不是查询时间的依赖来解决了维数灾难的问题，并在内在维数方面展现了显着的改进。

Mar, 2017

重访用于亿级近似最近邻的倒排索引

本文提出一种新的基于倒排索引的检索系统，相比于现有的基于多重索引的系统，在相同内存消耗和构建复杂度下，在十亿级深度描述符数据集上，取得了数倍于现有最先进方法的检索性能。

Feb, 2018

互信息哈希

该研究提出了一种基于互信息优化的新型监督式哈希方法，通过在深度神经网络中优化互信息来学习二进制向量嵌入，从而在大规模高维对象数据库检索中获得高质量的二进制嵌入。

Mar, 2018

近似最近邻搜索中超参数的高效自动调整

本研究提出了一种使用随机空间划分树自动调整索引方法超参数的算法，相较于现有方法，该算法在查询时间上表现优异，且建立速度更快。

Dec, 2018

流数据近邻搜索的次线性内存草图

本条研究提出了史上首个可查询到数据集中最近邻居的亚线性内存草图，并利用局部敏感哈希（LSH）估计器、在线核密度估计和压缩感知相结合来实现稳定查询的子线性内存性能，以取得内存-精度权衡的理论效果。

Feb, 2019

流行近似最近邻搜索实现的最坏情况性能：保证和限制

图形化相似最近邻搜索算法的最坏情况性能研究，以HNSW、NSG和DiskANN为例，发现其实际查询时间与实例大小成线性关系，并证明其具有常数近似比和多对数查询时间的边界维数据集。

Oct, 2023

基于图的概率路由的近似最近邻搜索

通过引入具有概率保证的方法，该研究旨在增强基于图的最近邻搜索中的路由，提出了PEOs，一种有效地确定图中应考虑的邻居进行准确距离计算的新方法，实验证明其在常用图索引（HNSW）上可以提高吞吐量1.6到2.5倍，并且其效率始终比最先进的路由技术提高1.1到1.4倍。

Feb, 2024

发现数据结构：最近邻搜索及其他

本文提出了一种用于端到端学习数据结构的通用框架，能够适应底层数据分布，并对查询和空间复杂度进行精细控制。我们的框架通过从零开始学习数据结构，解决了最近邻搜索的问题，发现了多维数据中的有效结构，具有广泛的应用潜力。

Nov, 2024