Laplacian K-modes 算法聚类

Jun, 2014

The Laplacian K-modes algorithm for clustering

Weiran Wang, Miguel Á. Carreira-Perpiñán

TL;DR提出一种新算法 - Laplacian K-modes 聚类算法，它融合了聚类中三种不同的思想：K-means 中的隐式分配变量，mean-shift 中的密度估计，和图拉普拉斯正则化效应中的近邻点相似性分配，该算法可以解决难以聚类的问题，同时提供了一个预测新点的软分配映射。

Abstract

In addition to finding meaningful clusters, centroid-based clustering algorithms such as K-means or mean-shift should ideally find centroids that are valid patterns in the input space, representative of data in their cluster. This is challenging with data having a →

centroid-based clustering laplacian k-modes density estimate manifold structure nonconvex

发现论文，激发创造

可扩展的拉普拉斯 K-modes

我们提出了一种新的算法 Laplacian K-modes，并通过优化一个紧密的辅助函数提高了其可伸缩性，进而实现了大规模数据的并行化聚类和密度模式查找，并在各种数据集上进行了全面的实验。

Oct, 2018

基于 K-modes 算法的聚类

通过密度和簇分配的概念，提出了一种 K-modes 目标函数算法，能够有效地聚类数据并找到有效的模式，相比于 K-medoids 和 mean-shift 更快且更加鲁棒。

Apr, 2013

一篇聚类算法的均值漂移综述

本文讨论了基于核密度估计和均值漂移算法的聚类方法及其理论，包括模糊和非模糊均值漂移、高斯混合模型、与尺度空间理论、谱聚类等算法的联系，以及对大型数据集的加速策略和图像分割、去噪等应用。

Mar, 2015

从流形学习的角度重新思考 k-means

该论文提出了一种基于流形学习和张量正则化的聚类算法，不同于传统的基于 k-means 的方法，该算法通过构建距离矩阵来直接检测数据簇，同时应用于多视图数据中，证明了其优越性能。

May, 2023

模式聚类的综合方法

本文介绍了一种称为模式聚类的非参数聚类方法，该方法使用密度估计器的模式吸引盆来定义聚类；同时提供了软聚类分配的变种，连接聚类之间的连通性度量，选择带宽的技术，去噪小聚类的方法以及可视化聚类的方法，此外，我们还将模式聚类与其他聚类方法进行了比较。

Jun, 2014

鲁棒自动数据聚类：狄利克雷过程遇见中位数均值

通过整合基于模型和基于质心的方法，提出了一种高效且自动的聚类技术，解决噪声对聚类质量的影响，并确保无需提前指定聚类数的优点。在模拟和真实数据集上进行了严格评估和统计保证，表明我们提出的方法优于现有先进聚类算法。

Nov, 2023

大维数据的核谱聚类

本文通过对核谱聚类方法进行首次分析，发现在维度和数量同时增长的情况下，核矩阵的归一化拉普拉斯矩阵与所谓的尖峰随机矩阵呈类似的渐近行为。通过一种如尖峰矩阵模型的可分离条件，证明该模型中的一些孤立特征值 - 特征向量对携带聚类信息。我们精确评估了这些特征值的位置和特征向量内容，在理论和实践角度揭示了核谱聚类中非常重要（有时相当破坏性）的方面。最后将结果与 MNIST 数据库中图像实际聚类的性能进行比较，证明了理论和实践之间的重要匹配。

Oct, 2015

可扩展核聚类：近似核 k-means

本文提出了一种基于随机化的近似核 K-means 簇算法，其利用采样点与数据集中所有点之间的核相似性来近似聚类中心，实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求，最后利用集成聚类技术进一步提高算法性能。

Feb, 2014

基于特征加权均值漂移算法的高维数据自动聚类

我们提出了一种简单而优雅的特征加权变体均值漂移算法，可有效学习特征的重要性，从而将均值漂移的优点扩展到高维数据，其不仅优于传统的均值漂移聚类过程，而且还保留了计算上的简单性。此外，所提出的方法具有严格的理论收敛保证和至少三次收敛速率。

Dec, 2020

带谱范数和 k-means 算法的聚类

该论文证明了一个简单的聚类算法可以在不假设任何生成模型的情况下运作，只需要假定一种叫做 “接近条件” 的规律。该算法依赖于著名的 k-means 算法，能够产生大多数现有生成模型的结果，同时提出了一种新的技术来提高间距与标准差之比。

Apr, 2010