数据光谱学:卷积算子特征空间和聚类
该论文提出了一种基于扩散的谱聚类和降维算法的概率解释,利用规范化图拉普拉斯算子的特征向量。通过定义数据点之间的扩散距离,并证明了对应马尔科夫矩阵的前几个特征向量的低维表示在一定均方误差标准下是最佳的。此外,假设数据点是从密度 $p (x)=e^{-U (x)}$ 中随机抽取的,作者将这些特征向量视为具有反射边界条件下潜在 $2U (x)$ 力学势中福克 - 普朗克算子的离散近似的本征函数。最后,应用已知结果,对连续福克 - 普朗克算子的本征值和本征函数进行解析,从而为基于前几个特征向量的谱聚类和降维算法的成功提供了数学论证。这项分析阐明了许多经验发现关于谱聚类算法的特征和扩散进程。
Jun, 2005
本文通过对核谱聚类方法进行首次分析,发现在维度和数量同时增长的情况下,核矩阵的归一化拉普拉斯矩阵与所谓的尖峰随机矩阵呈类似的渐近行为。通过一种如尖峰矩阵模型的可分离条件,证明该模型中的一些孤立特征值 - 特征向量对携带聚类信息。我们精确评估了这些特征值的位置和特征向量内容,在理论和实践角度揭示了核谱聚类中非常重要(有时相当破坏性)的方面。最后将结果与 MNIST 数据库中图像实际聚类的性能进行比较,证明了理论和实践之间的重要匹配。
Oct, 2015
本研究针对典型的谱聚类算法,探讨在一些较弱条件下其性能为何,还研究了利用少于 k 个特征向量进行嵌入的谱聚类,实验表明在合成和真实数据上,使用少于 k 个特征向量时,谱聚类也能够产生相当或更好的结果。
Aug, 2022
本文研究数据分析中的低维数据表示问题,提出了一种名为扩散映射的算法,能够将复杂高维数据嵌入低维欧几里得空间,从而实现长时间演化系统的高效识别与聚类分析。
Mar, 2005
利用鲁棒统计和递归算法相结合的方法,我们提出了一种新的技术来克服主成分分析在应用于典型实际数据集,尤其是天文光谱方面的局限性,通过开发通用机制,可以在不需要手动审查数据的情况下获取可靠的特征谱,并利用所有观测数据的信息。通过对 VIMOS VLT Deep Survey 光谱集合的演示,我们展示了该方法的能量,并突显了与之前的解决方法相比的改进,以及我们方法的可扩展性,适用于 SDSS 等大尺度收集。
Sep, 2008
本文提出了一种基于图信号处理的方法,采用图滤波和随机采样技术加速生成 Laplacian 矩阵特征向量和 k-means 聚类算法步骤,该方法在控制误差的同时计算时间效率可达到数个数量级的提升,并在人工合成数据和真实网络数据集上进行测试。
Feb, 2016
本文探究了实际图形的频谱密度,并借用凝聚态物理学的工具及其适应性处理常见的图形模式的频谱签名。通过计算具有十亿边缘的图形的频谱密度来展示其高效性。同时,证明频谱密度的估计促进了许多常见的中心度量的计算,并使用频谱密度估计了有关图形结构的有意义信息,这些信息不能仅通过极值特征对推断得出。
May, 2019
基于子集集合的归一化特征值谱,我们提出了一种增量谱聚类方法,将数据分成可管理的子集,对每个子集进行聚类,根据特征值谱的相似性合并不同子集的聚类结果,从而实现整个数据集的聚类。实验结果表明,该方法能够获得接近整个数据集聚类结果的子集聚类和合并。
Aug, 2023
通过对相似性矩阵的特征向量的波动性进行建模,证明了在大维空间中其元素的波动服从高斯分布,从而精确预测了谱聚类的分类性能。通过对合成数据和真实数据的数值实验,证明了这一现象的普适性。
Feb, 2024