一个在线 K-Means 聚类算法
非监督学习中的聚类是一个基础问题,本研究介绍了一种简单的随机聚类算法,它在任意 k 下的期望运行时间为 O (nnz (X) + nlogn),并在 K-means 目标函数上实现了近似比例约为 O (k^4) 的算法,通过实验证明与现有方法相比,我们的聚类算法在运行时间和聚类质量之间有一个新的权衡。
Oct, 2023
本研究展示了一种通过在并行计算中显著减少所需传递次数的方法,从而获得好的初始化的 K-means|| 初始化算法,并通过实验评估证明该算法在顺序和并行设置下均优于 K-means ++。
Mar, 2012
本文提出了一种基于随机化的近似核 K-means 簇算法,其利用采样点与数据集中所有点之间的核相似性来近似聚类中心,实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求,最后利用集成聚类技术进一步提高算法性能。
Feb, 2014
本文提出了一种算法,用于在差分隐私(DP)的一轮(也称非交互式)本地模型中进行 k 均值聚类,该算法实现的逼近比接近于最佳非私有逼近算法,改进了以前已知的仅保证大(常数)逼近比率的算法。此外,这是第一个仅需要一轮本地 DP 模型通信的 k 均值常数逼近算法,积极地解决了 Stemmer(SODA 2020)提出的一个开放性问题。我们的算法框架非常灵活;我们通过展示在(一轮)洗牌 DP 模型中也会产生类似于最优解的逼近算法来证明这一点。
Apr, 2021
改进版的 q-means 量子算法和 dequantized 算法,分别以 O ((k^2)/(ε^2)(√k*d + log (Nd))) 和 O ((k^2)/(ε^2)(kd + log (Nd))) 的时间复杂度在近似 k-means 聚类中取得优化,其中 k 代表簇数量,ε 代表误差率,N 代表向量数量,d 代表向量维度。
Aug, 2023
本文研究了基于 k-median 目标函数的聚类问题,提出了一种称为连续采样的简单但有效的采样技术,并使用该技术开发了一个可在 O(nk)时间内运行的算法来解决 k-median 问题。
Dec, 2012
通过密度和簇分配的概念,提出了一种 K-modes 目标函数算法,能够有效地聚类数据并找到有效的模式,相比于 K-medoids 和 mean-shift 更快且更加鲁棒。
Apr, 2013
K-Means 聚类使用 LLoyd 算法是一种迭代方法,将给定数据集分成 K 个不同的簇;本文将比较并分析两种不同的方法,一种是基于 OpenMP 的平坦同步方法,另一种是基于 GPU 的并行化方法,通过比较结果测量性能改进。
May, 2024
本文比较分析了大数据背景下 K-means 算法的不同优化技术。通过并行化、逼近和采样方法等不同方法,探讨了克服大数据规模问题的不同途径。通过使用不同基准数据集评估了这些技术的性能,并根据 LIMA 支配准则在速度、聚类质量和可扩展性方面进行比较。结果表明,不同的技术适用于不同类型的数据集,并提供了关于 K-means 大数据聚类中速度和准确性之间权衡的见解。总体而言,本文为从业者和研究人员提供了如何优化大数据应用中的 K-means 的全面指南。
Oct, 2023