基于局部线性逼近的谱聚类

Jan, 2010

Spectral clustering based on local linear approximations

Ery Arias-Castro, Guangliang Chen, Gilad Lerman

TL;DR本文研究了一种基于局部线性逼近残差的高阶谱聚类方法，考虑了聚类过程中的数据噪声和异常值问题，并在实验中验证了该算法具有更好的聚类效果。

Abstract

In the context of clustering, we assume a generative model where each cluster is the result of sampling points in the neighborhood of an embedded smooth surface; the sample may be contaminated with →

clustering spectral clustering outliers local linear approximation generative model

发现论文，激发创造

带谱范数和 k-means 算法的聚类

该论文证明了一个简单的聚类算法可以在不假设任何生成模型的情况下运作，只需要假定一种叫做 “接近条件” 的规律。该算法依赖于著名的 k-means 算法，能够产生大多数现有生成模型的结果，同时提出了一种新的技术来提高间距与标准差之比。

Apr, 2010

小批量谱聚类

采用自适应随机梯度优化的实用方法可以学习拉普拉斯矩阵的完整光谱，且每个迭代的成本与样本数量成线性关系，实验证明其具备比近似方法更好的计算可扩展性。

Jul, 2016

阈值化和谱聚类的子空间聚类

本文提出了一种基于相关性阈值和谱聚类算法的低复杂度聚类算法，可将高维数据点聚类成低维线性子空间的集合，并成功处理了子空间相交和数据点缺失的问题，同时还提出一种检测异常值的方案。

Mar, 2013

谱聚类教程

该论文介绍了谱聚类算法和图拉普拉斯的基本性质，推导了不同的谱聚类算法，比较了它们之间的优缺点。

Nov, 2007

理论与实践中的快速简单谱聚类

本研究提出了一种基于顶点嵌入的简单谱聚类算法，通过幂法计算的向量，在接近线性时间内计算顶点嵌入，并在输入图形的自然假设下，算法能够可靠地恢复出真实聚类结果。通过在多个合成和现实世界数据集上的评估发现，该算法与其他聚类算法相比，具有显著更快的速度，并且产生的聚类准确度基本相同。

Oct, 2023

阈值法稳健子空间聚类

本研究提出了一种简单、低复杂度的子空间聚类算法，通过阈值化数据点之间的相关性来构建邻接矩阵，并且对噪声和异常值具有鲁棒性，可用于处理高维、噪声丰富的数据点。

Jul, 2013

大维数据的核谱聚类

本文通过对核谱聚类方法进行首次分析，发现在维度和数量同时增长的情况下，核矩阵的归一化拉普拉斯矩阵与所谓的尖峰随机矩阵呈类似的渐近行为。通过一种如尖峰矩阵模型的可分离条件，证明该模型中的一些孤立特征值 - 特征向量对携带聚类信息。我们精确评估了这些特征值的位置和特征向量内容，在理论和实践角度揭示了核谱聚类中非常重要（有时相当破坏性）的方面。最后将结果与 MNIST 数据库中图像实际聚类的性能进行比较，证明了理论和实践之间的重要匹配。

Oct, 2015

谱聚类的更紧密分析，以及更多

本研究针对典型的谱聚类算法，探讨在一些较弱条件下其性能为何，还研究了利用少于 k 个特征向量进行嵌入的谱聚类，实验表明在合成和真实数据上，使用少于 k 个特征向量时，谱聚类也能够产生相当或更好的结果。

Aug, 2022

压缩谱聚类

本文提出了一种基于图信号处理的方法，采用图滤波和随机采样技术加速生成 Laplacian 矩阵特征向量和 k-means 聚类算法步骤，该方法在控制误差的同时计算时间效率可达到数个数量级的提升，并在人工合成数据和真实网络数据集上进行测试。

Feb, 2016

大型数据集上的谱聚类：何时有效？来自连续聚类和密度 Cheeger-Buser 的理论

该研究论文讨论了谱聚类算法在大型随机分布数据集上的表现，提供了一种能够找到数据集潜在密度规律的谱聚类算法，并通过引入 Cheeger-Buser 不等式为所有随机分布提供新的支持。

May, 2023