Dec, 2012
近似聚类的最优时间界限
Optimal Time Bounds for Approximate Clustering
TL;DR本文研究了基于k-median目标函数的聚类问题,提出了一种称为连续采样的简单但有效的采样技术,并使用该技术开发了一个可在O(nk)时间内运行的算法来解决k-median问题。
Abstract
clustering is a fundamental problem in unsupervised learning, and has been studied widely both as a problem of learning mixture models and as an
发现论文,激发创造
基于贝叶斯非参数的k-means聚类新算法再探
本文从贝叶斯非参数的角度出发,重新审视了k-means聚类算法。通过分析Dirichlet过程混合物的Gibbs抽样算法,我们发现这个算法在极限下接近于硬聚类算法,可以优雅且单调地最小化一个类似k-means的聚类目标,包括对聚类数的惩罚。我们将这个方法推广到了多个数据集的聚类情况,并讨论了进一步的扩展,包括门槛特征向量的光谱松弛和在图中不需要固定聚类数的归一化割图聚类算法。
Nov, 2011
聚类的改进谱范数界限
本文旨在通过改进 Kumar 和 Kannan [2010] 的分离条件,探讨聚类混合分布。本文通过较弱的分离条件和接近度条件,得出了具有低误差和低 k-均值成本的聚类结果,在某些情况下能够改进高斯模型的分离结果。
Jun, 2012
可解释的K均值和K中值聚类
本文提出了一种使用决策树对数据集进行聚类的算法,并探讨了该方法对 k-means 和 k-medians 目标函数的适用性。作者证明了常见的自顶向下决策树算法可能会导致成本任意大的聚类结果,但设计了一种有效的方法使用具有 k 个叶子的树生成可解释的聚类,并对于两个中心点的情况,仅需要一个阈值切割即可实现常数近似。
Feb, 2020
面向鲁棒聚类的统一框架的均匀集中界限
提出了基于中心的聚类算法的鲁棒框架Median-of-Means,其在形式上覆盖了多种常见的聚类变体,其强一致性和误差率的阈值能够超过文献中已知的最佳结果,同时实验证明其在真实和合成数据集上具有很好的表现,同时还得到了一致的集中度界限。
Oct, 2021
鲁棒自动数据聚类:狄利克雷过程遇见中位数均值
通过整合基于模型和基于质心的方法,提出了一种高效且自动的聚类技术,解决噪声对聚类质量的影响,并确保无需提前指定聚类数的优点。在模拟和真实数据集上进行了严格评估和统计保证,表明我们提出的方法优于现有先进聚类算法。
Nov, 2023