谱聚类中特征向量的渐近高斯波动

Feb, 2024

谱聚类中特征向量的渐近高斯波动

Asymptotic Gaussian Fluctuations of Eigenvectors in Spectral Clustering

Hugo Lebeau, Florent Chatelain, Romain Couillet

TL;DR通过对相似性矩阵的特征向量的波动性进行建模，证明了在大维空间中其元素的波动服从高斯分布，从而精确预测了谱聚类的分类性能。通过对合成数据和真实数据的数值实验，证明了这一现象的普适性。

Abstract

The performance of spectral clustering relies on the fluctuations of the entries of the eigenvectors of a similarity matrix, which has bee

spectral clustering eigenvectors similarity matrix gaussian fluctuations classification performance

发现论文，激发创造

大维数据的核谱聚类

本文通过对核谱聚类方法进行首次分析，发现在维度和数量同时增长的情况下，核矩阵的归一化拉普拉斯矩阵与所谓的尖峰随机矩阵呈类似的渐近行为。通过一种如尖峰矩阵模型的可分离条件，证明该模型中的一些孤立特征值 - 特征向量对携带聚类信息。我们精确评估了这些特征值的位置和特征向量内容，在理论和实践角度揭示了核谱聚类中非常重要（有时相当破坏性）的方面。最后将结果与 MNIST 数据库中图像实际聚类的性能进行比较，证明了理论和实践之间的重要匹配。

Oct, 2015

使用随机信号的图滤波加速光谱聚类

本文提出了一种基于图信号处理的快速谱聚类算法，通过使用图滤波器对随机信号进行谱聚类距离矩阵的估计，利用这些随机向量的随机性来估计聚类数目 k，相较于传统谱聚类方法，我们的方法在大规模数据集上表现相当且速度至少快二倍。

Sep, 2015

随机矩阵集时间滞后相关矩阵：特征值谱的推导和金融时间序列分析

通过时间序列获得的自相关矩阵的特殊结构，以及基于逆 Abel 变换等方法获得其精确的特征值密度。研究发现，标准的高斯误差预测无法解释通过实际高频数据计算出的特征值密度的非随机模式，如 Imaginary 部分的不对称依赖性和市场影响下的股票聚类现象。

Sep, 2006

Fokker-Planck 算子的扩散映射，谱聚类和特征函数

该论文提出了一种基于扩散的谱聚类和降维算法的概率解释，利用规范化图拉普拉斯算子的特征向量。通过定义数据点之间的扩散距离，并证明了对应马尔科夫矩阵的前几个特征向量的低维表示在一定均方误差标准下是最佳的。此外，假设数据点是从密度 $p (x)=e^{-U (x)}$ 中随机抽取的，作者将这些特征向量视为具有反射边界条件下潜在 $2U (x)$ 力学势中福克 - 普朗克算子的离散近似的本征函数。最后，应用已知结果，对连续福克 - 普朗克算子的本征值和本征函数进行解析，从而为基于前几个特征向量的谱聚类和降维算法的成功提供了数学论证。这项分析阐明了许多经验发现关于谱聚类算法的特征和扩散进程。

Jun, 2005

谱聚类的更紧密分析，以及更多

本研究针对典型的谱聚类算法，探讨在一些较弱条件下其性能为何，还研究了利用少于 k 个特征向量进行嵌入的谱聚类，实验表明在合成和真实数据上，使用少于 k 个特征向量时，谱聚类也能够产生相当或更好的结果。

Aug, 2022

特征向量动态：一般理论和一些应用

该研究论文提出了研究对称矩阵的 $P$ 个连续特征向量跨度的稳定性的一般框架，其包括量子耗散和金融风险控制等多种方向，并以奇异值为基础，特别研究了高斯正交矩阵和协方差矩阵的情况。

Mar, 2012

大型随机矩阵有限低秩扰动的特征值和特征向量

研究了随机矩阵的有限低秩扰动的特征值和特征向量，发现扰动的矩阵极端特征值收敛于非随机值且存在相变现象，临界点与积分变换有关。

Oct, 2009

随机图中归一化拉普拉斯算子的特征向量的极限定理

本研究证明：在一个有限维的随机点积图的归一化拉普拉斯矩阵的 $d$ 个最大特征值所对应的特征向量的组成部分符合中心极限定理。作为推论，我们证明了对于随机块模型图，归一化拉普拉斯矩阵的谱嵌入的行收敛于多元正态分布，并且每个行的均值和协方差矩阵是其所对应顶点块成员的函数。与邻接矩阵的特征向量的先前结果一起，我们通过多元正态分布之间的 Chernoff 信息比较了嵌入方法选择对后续推理的影响，演示了嵌入方法都不占优势，因此推断潜在块分配的任务无法通过这些嵌入方法获得显著提升。

Jul, 2016

谱聚类的一致性

本文研究了流行的谱聚类算法的一致性，并开发了新方法来证明谱聚类算法的一致性。结果表明，规范化聚类在非常普遍的条件下是一致的，而未规范化聚类只在强附加假设下是一致的。因此，规范化谱聚类算法是优越的。

Apr, 2008

用于大规模图聚类的随机并行可分解特征值间隔扩张

该研究探讨了一种可并行化的方法，通过对大型图的频谱进行扩展，以加速奇异值分解求解器和谱聚类，并利用多项式逼近来实现此目的。

Jul, 2022