一个在线 K-Means 聚类算法

Dec, 2014

An Algorithm for Online K-Means Clustering

Edo Liberty, Ram Sriharsha, Maxim Sviridenko

TL;DR在线聚类算法实现了与 k 均值算法相同的聚类效果，其算法复杂度显著低于 k-means++。

Abstract

This paper shows that one can be competitive with the k-means objective while operating online. In this model, the algorithm receives vectors v_1,...,v_n one by one in an arbitrary order. For each vector the algorithm outputs a cluster identifier before receiving the next one. Our online algorithm generates ~O(k) clusters whose k-means cost is ~O(W*). Here,

online clustering k-means algorithm competitive algorithm poly-logarithmic factors computational model

发现论文，激发创造

一维投影聚类的简单、可扩展和有效方法

非监督学习中的聚类是一个基础问题，本研究介绍了一种简单的随机聚类算法，它在任意 k 下的期望运行时间为 O (nnz (X) + nlogn)，并在 K-means 目标函数上实现了近似比例约为 O (k^4) 的算法，通过实验证明与现有方法相比，我们的聚类算法在运行时间和聚类质量之间有一个新的权衡。

Oct, 2023

分布式聚类与异常检测的实用算法

本文提出了一种基于简要构建的数据摘要的分布式无监督学习算法，对异常点的全局识别有很好的近似保证，并在真实和人工数据上超过了所有基线算法。

May, 2018

可扩展的 K-Means++

本研究展示了一种通过在并行计算中显著减少所需传递次数的方法，从而获得好的初始化的 K-means|| 初始化算法，并通过实验评估证明该算法在顺序和并行设置下均优于 K-means ++。

Mar, 2012

可扩展核聚类：近似核 k-means

本文提出了一种基于随机化的近似核 K-means 簇算法，其利用采样点与数据集中所有点之间的核相似性来近似聚类中心，实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求，最后利用集成聚类技术进一步提高算法性能。

Feb, 2014

一轮局部隐私 k 均值

本文提出了一种算法，用于在差分隐私（DP）的一轮（也称非交互式）本地模型中进行 k 均值聚类，该算法实现的逼近比接近于最佳非私有逼近算法，改进了以前已知的仅保证大（常数）逼近比率的算法。此外，这是第一个仅需要一轮本地 DP 模型通信的 k 均值常数逼近算法，积极地解决了 Stemmer（SODA 2020）提出的一个开放性问题。我们的算法框架非常灵活；我们通过展示在（一轮）洗牌 DP 模型中也会产生类似于最优解的逼近算法来证明这一点。

Apr, 2021

你知道什么是 q-means 吗？

改进版的 q-means 量子算法和 dequantized 算法，分别以 O ((k^2)/(ε^2)(√k*d + log (Nd))) 和 O ((k^2)/(ε^2)(kd + log (Nd))) 的时间复杂度在近似 k-means 聚类中取得优化，其中 k 代表簇数量，ε 代表误差率，N 代表向量数量，d 代表向量维度。

Aug, 2023

近似聚类的最优时间界限

本文研究了基于 k-median 目标函数的聚类问题，提出了一种称为连续采样的简单但有效的采样技术，并使用该技术开发了一个可在 O（nk）时间内运行的算法来解决 k-median 问题。

Dec, 2012

基于 K-modes 算法的聚类

通过密度和簇分配的概念，提出了一种 K-modes 目标函数算法，能够有效地聚类数据并找到有效的模式，相比于 K-medoids 和 mean-shift 更快且更加鲁棒。

Apr, 2013

K-Means 算法并行化及应用于大数据聚类

K-Means 聚类使用 LLoyd 算法是一种迭代方法，将给定数据集分成 K 个不同的簇；本文将比较并分析两种不同的方法，一种是基于 OpenMP 的平坦同步方法，另一种是基于 GPU 的并行化方法，通过比较结果测量性能改进。

May, 2024

针对大数据的 K-means 优化：一项比较研究

本文比较分析了大数据背景下 K-means 算法的不同优化技术。通过并行化、逼近和采样方法等不同方法，探讨了克服大数据规模问题的不同途径。通过使用不同基准数据集评估了这些技术的性能，并根据 LIMA 支配准则在速度、聚类质量和可扩展性方面进行比较。结果表明，不同的技术适用于不同类型的数据集，并提供了关于 K-means 大数据聚类中速度和准确性之间权衡的见解。总体而言，本文为从业者和研究人员提供了如何优化大数据应用中的 K-means 的全面指南。

Oct, 2023