广义密度聚类

Jul, 2009

Generalized density clustering

Alessandro Rinaldo, Larry Wasserman

TL;DR本研究研究了广义密度聚类，提出了两种数据基础方法来选择波宽，并研究了密度聚类的稳定性，表明一种简单的基于图的算法可以成功地近似高密度聚类。

Abstract

We study generalized density-based clustering in which sharply defined clusters such as clusters on lower-dimensional manifolds are allowed. We show that accurate clustering is possible even in high dimensions. W

generalized density-based clustering high dimensions bandwidth stability properties graph-based algorithm

发现论文，激发创造

流形上的簇树

本文研究在或靠近平滑 $d$ 维流形 $M$ 上的密度 $f$ 的聚类树的估计问题，通过分析最近由 Chaudhuri 和 Dasgupta 提出的基于 $k$ 近邻的算法的修改版本，得出了这个方法的收敛率只依赖于流形维度 $d$ 而不是环境维度 $D$，同时对核密度估计器也进行了类似（非算法）的分析，进一步探讨了样本复杂度下界实例的构建和已知流形情况下采用自适应算法可获得更好的收敛率。

Jul, 2013

一篇聚类算法的均值漂移综述

本文讨论了基于核密度估计和均值漂移算法的聚类方法及其理论，包括模糊和非模糊均值漂移、高斯混合模型、与尺度空间理论、谱聚类等算法的联系，以及对大型数据集的加速策略和图像分割、去噪等应用。

Mar, 2015

潜在维度聚类

本文提出了一种称为渐进聚类的新技术，它将每个数据点通过其潜在的点维度进行聚类，该点维度是与该点本地数据集的维度有关的尺度。这种渐进聚类技术可以广泛应用于各种数据集的分析中，并通过距离方法以点的第 n 个最近邻点来评估数据点的点维度，同时将其应用于动态系统、图像和人类动作等领域进行分析。

May, 2018

高维聚类的特征选择

我们提出了一种非参数特征选择方法，包括多模检验，核密度估计和模式聚类，并提供了聚类结果的错误率边界。此外，我们首次提供了基于模式的聚类的误差界限。

Jun, 2014

离散分布的谱聚类

我们提出了一个基于谱聚类和分布相似度度量（如最大均值差异和 Wasserstein 距离）的简单而有效的框架用于离散分布聚类，并通过使用线性最优输运在大规模数据集上高效地构建相似矩阵，得到了较高的聚类准确率和计算效率。

Jan, 2024

基于局部线性逼近的谱聚类

本文研究了一种基于局部线性逼近残差的高阶谱聚类方法，考虑了聚类过程中的数据噪声和异常值问题，并在实验中验证了该算法具有更好的聚类效果。

Jan, 2010

阈值化和谱聚类的子空间聚类

本文提出了一种基于相关性阈值和谱聚类算法的低复杂度聚类算法，可将高维数据点聚类成低维线性子空间的集合，并成功处理了子空间相交和数据点缺失的问题，同时还提出一种检测异常值的方案。

Mar, 2013

一些基于密度的聚类技术概述

本文研究了密度聚类方法以及其特点、优缺点，重点探究了其在不同类型数据集中挖掘有用和适当模式的适用性，具体讨论了 DBSCAN、OPTICS、DENCLUE 和 VDBSCAN 等方法。

Jun, 2023

大型数据集上的谱聚类：何时有效？来自连续聚类和密度 Cheeger-Buser 的理论

该研究论文讨论了谱聚类算法在大型随机分布数据集上的表现，提供了一种能够找到数据集潜在密度规律的谱聚类算法，并通过引入 Cheeger-Buser 不等式为所有随机分布提供新的支持。

May, 2023

聚类树估计与修剪的一致性流程

该论文提出了两种基于密度估计的聚类方法，包括了单链接算法和 $k$- 近邻图算法，并给出了算法的收敛性和一些最坏情况的样本复杂性。论文最后还研究了一种聚类树剪枝的方法，保证去除躁声簇并恢复主要簇的性质。

Jun, 2014