本文考虑了Bilu和Linial(2010)提出的模型,研究了最佳聚类不发生变化的问题,我们发现即使问题是NP困难的,有时候也可能获得有效算法,这些算法对于特定的多项式扰动是鲁棒的。同时,我们证明了该区间内的乘法鲁棒性参数可能太强,以至于聚类问题变得微不足道,只有一个较窄的区间是有趣的。
Jul, 2011
通过小乘的扰动,可在目标基础聚类问题中进行最优聚类,本文提供了几个在此框架内的结果并且基于新的关联准则提供了基于中心的和最小和聚类的算法。
Dec, 2011
本文提出了一种双树算法,用于加速k-means聚类算法在大规模K簇和数据集下进行迭代,在使用了覆盖树后,该算法的单次迭代运行时间为O(N + k log k),并且在实践中表现得很好。
Jan, 2016
本文研究在实际应用中,哪些加性扰动稳定性的实例可以设计有效算法,并证明它们能找到最优聚类。我们提出了一种稳定性定义,并设计了算法以证明稳定实例的最优聚类。当实例具有一定的分离性时,我们显示出一种具有证明保证的鲁棒算法,也能容忍异常值。通过研究真实数据集的稳定性,我们补充了这些结果,并展示了我们的算法在这些基准数据集上的表现。
Dec, 2017
本文研究了基于度量空间中的聚类点的算法和优化,提出了一种通用的类Lloyd算法的无限算法族,利用有效的学习算法从特定于应用程序的聚类实例分布中学习到了最佳聚类算法,包括著名的k-means ++算法及其它。
Sep, 2018
该研究论文提出了一种基于赫尔伯特-施密特谱理论和矩阵完成方法的不完整多视图聚类算法PIC,旨在解决在现实生活中多种数据缺失的情况下,提高多视图聚类效果
May, 2019
本文提供了一种新的算法,针对子高斯混合数据,能够在存在异常值的情况下,获得最佳错误率的相对较强聚类结果。
Jun, 2023
该研究论文介绍了离散化对连续分布进行概括的方法,重点讨论了Lloyd算法在数据离散化中的应用以及相关挑战和解决方案。
Aug, 2023
研究了混合有界协方差分布的聚类问题,使用细粒度分离假设;提供了用于聚类任务的多项式时间算法,并指出了在细粒度均值分离假设下精确聚类是信息理论上不可能的;引入了聚类细化的概念并证明了可以高效计算出样本的精确聚类细化;此外,根据先前工作中的一个变体条件,我们的算法输出准确聚类,甚至适用于一般权重的混合物。
Dec, 2023
聚类是无监督机器学习中的关键问题,如何通过混合模型来研究聚类是常见的。本文首先通过契诺夫散度建立了聚类任何混合模型的一个普遍下界,然后证明在具有次指数尾部的混合模型中,迭代算法可以达到这个下界;此外,对于更适合使用泊松或负二项式混合模型的数据集,我们研究了属于指数族的混合模型,在这种混合模型中,我们证明了一种改进的Lloyd算法——Bregman硬聚类,是速率最优的。
Feb, 2024