用于精确最近邻搜索的随机划分树

Feb, 2013

Randomized partition trees for exact nearest neighbor search

Sanjoy Dasgupta, Kaushik Sinha

TL;DR通过分析三种 k-d 树的变体，我们确定了一个简单的潜在函数，该函数能直接反映数据集和查询点难度，并在正增长测度和主题模型中限制了该潜在函数。

Abstract

The k-d tree was one of the first spatial data structures proposed for nearest neighbor search. Its efficacy is diminished in high-dimensi

发现论文，激发创造

介绍了 Ball-tree 空间搜索树以及 Ball*-tree 改进算法，并使用新算法解决 KNN 查询问题，结果表明 Ball*-tree 算法相较于原算法具有更高的效率。

Nov, 2015

本研究通过理论与实验结合的方法，探讨了更广泛的树类组合，以了解空间划分可以利用数据的内在低维结构的程度，对于回归、向量量化和最近邻搜索等标准统计任务的影响，并证实了随机投影树是适应数据固有维数的。

May, 2012

提出一种新的无需数据空间分割的随机化算法来避免由于数据维度过高而导致的数据检索问题，并通过理论分析和实验结果来证明这种算法在数据近似性、速度和空间效率等方面优于传统的局部敏感哈希算法（LSH）

Dec, 2015

通过与两种替代分割方法的比较，通过对数据结构的实证分析，分析了适用于近似最近邻搜索的数据结构。结果表明，对于聚类的数据点和查询集，这些算法可以相对于标准的 kd-tree 构造提供显着改进。

Jan, 1999

本文探讨了两种影响随机投影森林中 k - 最近邻搜索 (K-NN 搜索) 性能的因素（数据点的分散性和 rpForest 中树的数量），研究表明随机投影森林的数量较大时，数据点的分散性对 K-NN 搜索影响非常有限。因此，在选择随机方向时，应使用原始 rpTree 算法，而不考虑数据点的分散性。

Feb, 2023

本研究提出了一种使用随机空间划分树自动调整索引方法超参数的算法，相较于现有方法，该算法在查询时间上表现优异，且建立速度更快。

Dec, 2018