k-means在平面上甚至需要指数次迭代

Dec, 2008

k-means在平面上甚至需要指数次迭代

k-means requires exponentially many iterations even in the plane

Andrea Vattani

TL;DR证明了k-means算法存在关于维数的指数下界，并以平面上的简单构造为例给出了指数下界的证明。

Abstract

The k-means algorithm is a well-known method for partitioning n points that lie in the d-dimensional space into k clusters. Its main features are simplicity and speed in practice. Theoretically, however, the best known upper bound on its running time (i.e. O(n^{kd})) can be exponential

发现论文，激发创造

近似聚类的最优时间界限

本文研究了基于k-median目标函数的聚类问题，提出了一种称为连续采样的简单但有效的采样技术，并使用该技术开发了一个可在O（nk）时间内运行的算法来解决k-median问题。

Dec, 2012

带有迭代运行时间边界的双树$k$均值

本文提出了一种双树算法，用于加速k-means聚类算法在大规模K簇和数据集下进行迭代，在使用了覆盖树后，该算法的单次迭代运行时间为O(N + k log k)，并且在实践中表现得很好。

Jan, 2016

精确边界的快速K均值

我们提出了一种新颖的加速精确k-means算法，在18个实验中比现有低维算法更优秀，速度快了最多三倍。我们还通过更好地估计用于减少距离计算次数的距离界限，对现有最先进的加速精确k-means算法进行了总体改进，在44个实验中实现了速度提升，最高达到1.8倍。最后，我们提出了标准方法的简化版本，并表明它们在59个实验中比其全面版本更快。

Feb, 2016

局部搜索在双倍指标下为k-Means提供PTAS

使用局部搜索启发式策略，本文证明了在任何固定维度的欧几里得空间中，k-means问题均可提供 PTAS。

Mar, 2016

Johnson-Lindenstrauss变换在k-Means和k-Medians聚类中的表现

通过投影到随机的O(log(k/ ε) / ε²)维子空间上，可以近似保持欧几里得k-means或k-medians聚类的最优解成本，并且适用于任何满足温和的子高斯尾条件的维度缩减映射，其维数几乎是最优的。此外，该结果适用于所有权重的欧几里得k-聚类。

Nov, 2018

核岭回归和核$k$-均值聚类的严格核查询复杂度

在本研究中，我们提出了Kernel Ridge Regression (KRR)和Kernel K-means聚类(KKMC)中所需的核函数评估数量的严格下限，并且通过有效的统计维度，我们的KRR结果解决了一个关于采样复杂度的开放性问题。此外，对于输入数据为高斯混合模型的情况，我们提供了一种超越了上述下限的KKMC算法。

May, 2019

Ward方法分析

本文研究了Ward方法在分层k均值问题中的应用，通过对完全链接的算法进行分析，发现当最优k聚类具有良好分离性时，Ward方法可以计算出k-均值目标函数的2-近似解，并证明了当最优聚类满足平衡条件时，Ward方法完全恢复最优解，并且我们证明了一维数据集的Ward聚类可以实现O(1)的近似解。

Jul, 2019

利用指数机制和最大覆盖实现差分隐私的$k$-均值聚类

介绍了一种新的差分隐私算法，该算法通过将问题转化为基于网格的最大覆盖问题的一系列实例，实现了较低的加性误差并保持恒定的乘性误差，在$k$-means聚类问题上取得了更好的实验效果。

Sep, 2020

关于投影聚类的泛化界限

给定一组点，聚类是找到一个点集合的分区，使分配给一个点的中心尽可能接近。对于中心为点的目标，我们显示了一个收敛速度为O(sqrt(k/n))的收敛界限。对于中心为j维子空间的子空间聚类，我们显示了一个收敛速度为O(sqrt((kj^2)/n))的收敛界限。对于广义$k$-means的投影聚类特例，我们证明了一个收敛速度为Omega(sqrt((kj)/n))的必要界限。

Oct, 2023

近似欧几里得$k$-中位数和$k$-均值问题的几乎线性时间近似算法

本文介绍了一种几乎线性时间算法，用于计算聚类问题的常数因子近似解。

Jul, 2024