本文研究在或靠近平滑 $d$ 维流形 $M$ 上的密度 $f$ 的聚类树的估计问题,通过分析最近由 Chaudhuri 和 Dasgupta 提出的基于 $k$ 近邻的算法的修改版本,得出了这个方法的收敛率只依赖于流形维度 $d$ 而不是环境维度 $D$,同时对核密度估计器也进行了类似(非算法)的分析,进一步探讨了样本复杂度下界实例的构建和已知流形情况下采用自适应算法可获得更好的收敛率。
Jul, 2013
本文讨论了基于核密度估计和均值漂移算法的聚类方法及其理论,包括模糊和非模糊均值漂移、高斯混合模型、与尺度空间理论、谱聚类等算法的联系,以及对大型数据集的加速策略和图像分割、去噪等应用。
Mar, 2015
本文提出了一种称为渐进聚类的新技术,它将每个数据点通过其潜在的点维度进行聚类,该点维度是与该点本地数据集的维度有关的尺度。这种渐进聚类技术可以广泛应用于各种数据集的分析中,并通过距离方法以点的第 n 个最近邻点来评估数据点的点维度,同时将其应用于动态系统、图像和人类动作等领域进行分析。
May, 2018
我们提出了一种非参数特征选择方法,包括多模检验,核密度估计和模式聚类,并提供了聚类结果的错误率边界。此外,我们首次提供了基于模式的聚类的误差界限。
Jun, 2014
我们提出了一个基于谱聚类和分布相似度度量(如最大均值差异和 Wasserstein 距离)的简单而有效的框架用于离散分布聚类,并通过使用线性最优输运在大规模数据集上高效地构建相似矩阵,得到了较高的聚类准确率和计算效率。
Jan, 2024
本文研究了一种基于局部线性逼近残差的高阶谱聚类方法,考虑了聚类过程中的数据噪声和异常值问题,并在实验中验证了该算法具有更好的聚类效果。
Jan, 2010
本文提出了一种基于相关性阈值和谱聚类算法的低复杂度聚类算法,可将高维数据点聚类成低维线性子空间的集合,并成功处理了子空间相交和数据点缺失的问题,同时还提出一种检测异常值的方案。
Mar, 2013
本文研究了密度聚类方法以及其特点、优缺点,重点探究了其在不同类型数据集中挖掘有用和适当模式的适用性,具体讨论了 DBSCAN、OPTICS、DENCLUE 和 VDBSCAN 等方法。
Jun, 2023
该研究论文讨论了谱聚类算法在大型随机分布数据集上的表现,提供了一种能够找到数据集潜在密度规律的谱聚类算法,并通过引入 Cheeger-Buser 不等式为所有随机分布提供新的支持。
May, 2023
该论文提出了两种基于密度估计的聚类方法,包括了单链接算法和 $k$- 近邻图算法,并给出了算法的收敛性和一些最坏情况的样本复杂性。论文最后还研究了一种聚类树剪枝的方法,保证去除躁声簇并恢复主要簇的性质。