最近邻搜索的频谱方法

Aug, 2014

Spectral Approaches to Nearest Neighbor Search

Amirali Abdullah, Alexandr Andoni, Ravindran Kannan, Robert Krauthgamer

TL;DR论文研究高维最近邻搜索问题的谱算法，旨在提供理论解释为何在实践中谱最近邻算法优于理论上的最优随机投影方法，其使用了高维数据的 PCA 降维和重复计算等技术。

Abstract

We study spectral algorithms for the high-dimensional nearest neighbor search problem (NNS). In particular, we consider a semi-random setting where a dataset $P$ in $\mathbb{R}^d$ is chosen arbitrarily from an un

spectral algorithms nearest neighbor search pca random-noise magnitude theoretical justification

发现论文，激发创造

低维查询的近似最近邻搜索

研究了度量空间中近似最近邻的问题，其中查询点被限制在低重复维度的子空间上，而数据则是高维的。我们展示了尽管数据是高维的，这个问题仍能得到有效的解决。

Jul, 2010

特征向量选择和自适应 $k$ 的近似谱聚类

该论文提出了一种利用两个相关指标来估算子空间嵌入中的聚类数，使用增长型神经气 (GNG) 逼近的算法，有效地解决了聚类问题，并在效率上与手动设置 k 的相似方法竞争。

Feb, 2023

大维数据的核谱聚类

本文通过对核谱聚类方法进行首次分析，发现在维度和数量同时增长的情况下，核矩阵的归一化拉普拉斯矩阵与所谓的尖峰随机矩阵呈类似的渐近行为。通过一种如尖峰矩阵模型的可分离条件，证明该模型中的一些孤立特征值 - 特征向量对携带聚类信息。我们精确评估了这些特征值的位置和特征向量内容，在理论和实践角度揭示了核谱聚类中非常重要（有时相当破坏性）的方面。最后将结果与 MNIST 数据库中图像实际聚类的性能进行比较，证明了理论和实践之间的重要匹配。

Oct, 2015

压缩谱聚类

本文提出了一种基于图信号处理的方法，采用图滤波和随机采样技术加速生成 Laplacian 矩阵特征向量和 k-means 聚类算法步骤，该方法在控制误差的同时计算时间效率可达到数个数量级的提升，并在人工合成数据和真实网络数据集上进行测试。

Feb, 2016

带谱范数和 k-means 算法的聚类

该论文证明了一个简单的聚类算法可以在不假设任何生成模型的情况下运作，只需要假定一种叫做 “接近条件” 的规律。该算法依赖于著名的 k-means 算法，能够产生大多数现有生成模型的结果，同时提出了一种新的技术来提高间距与标准差之比。

Apr, 2010

高维近似最近邻搜索

此篇论文调查了近邻问题的近似解决方案，如建立数据结构以实现较高的效率，并涉及到计算几何和组合几何中的相关问题。

Jun, 2018

阈值化和谱聚类的子空间聚类

本文提出了一种基于相关性阈值和谱聚类算法的低复杂度聚类算法，可将高维数据点聚类成低维线性子空间的集合，并成功处理了子空间相交和数据点缺失的问题，同时还提出一种检测异常值的方案。

Mar, 2013

优化 k 最近邻图以实现计算上有效的谱聚类

本文提出了一种在精简边界的 $k$-nearest neighbor graph 中基于局部统计的数据代表子集的近似谱聚类算法的方法，以提高其计算效率，且在人工合成的测试数据集和真实数据集中实验表明与常规方法相比较，该方法具有性能一致性和较少边界数量的特点。

Feb, 2023

基于局部线性逼近的谱聚类

本文研究了一种基于局部线性逼近残差的高阶谱聚类方法，考虑了聚类过程中的数据噪声和异常值问题，并在实验中验证了该算法具有更好的聚类效果。

Jan, 2010

基于动态连续索引的快速 K 最近邻搜索

提出一种新的无需数据空间分割的随机化算法来避免由于数据维度过高而导致的数据检索问题，并通过理论分析和实验结果来证明这种算法在数据近似性、速度和空间效率等方面优于传统的局部敏感哈希算法（LSH）

Dec, 2015