改进的异常值鲁棒的 k 均值种子
研究论文通过对聚类算法和 $D^\alpha$ 种子算法的应用,证明了使用 $D^\alpha$ 种子算法在 $k$-means 目标函数方面具有更好的性能,并通过实验证实了这种优势即使在种子算法之后使用 Lloyd's 算法时依然存在。
Oct, 2023
本文提出了 k - 变量 ++ 聚类算法,它具有包括一般密度的采样和 Arthur-Vassilvitsky 近似保证的新特性,可用于分布式、流式和在线聚类,也可以应用于差分隐私。经过对多个领域和设置的实验评估,我们的算法可与现有技术相媲美。
Feb, 2016
非监督学习中的聚类是一个基础问题,本研究介绍了一种简单的随机聚类算法,它在任意 k 下的期望运行时间为 O (nnz (X) + nlogn),并在 K-means 目标函数上实现了近似比例约为 O (k^4) 的算法,通过实验证明与现有方法相比,我们的聚类算法在运行时间和聚类质量之间有一个新的权衡。
Oct, 2023
本研究提出了一种新的检测离群值的高效算法,用于聚类混合的高斯模型,这种方法是鲁棒的,可以处理在数据中有少部分的失真或错误,它依赖于 TV 距离和方差有限度等假定条件,并使用极小化两种偏差的方法来修复度量误差和离群值异常。
May, 2020
本研究展示了一种通过在并行计算中显著减少所需传递次数的方法,从而获得好的初始化的 K-means|| 初始化算法,并通过实验评估证明该算法在顺序和并行设置下均优于 K-means ++。
Mar, 2012
通过考虑更大和更复杂的局部搜索邻域,我们的算法实现了 9 + ε 的逼近比,这是局部搜索的最佳可能性,并且在几个数据集上显著改进了 Lattanzi 和 Sohler(ICML 2019)的方法。
Sep, 2023
在分布式环境中,对 $k$-center/median/means 聚类与 outliers 问题 (或 $(k, z)$-center/median/means 问题) 进行研究,提出了一种改进算法,能够更好地解决 communication costs 线性依赖于 outliers 数量的问题。
Oct, 2018
通过考虑在种子选择中执行修剪的有限机会,我们开发了专门的三角不等式修剪策略和动态优先队列,展示了 K-Means ++ 和 K-Means $\ | $ 的第一个加速,它在运行时间更快而算法上是等效的,通过对已知技术进行简单但精心选择的修改,我们能够将距离计算减少超过 500 倍。
May, 2021
本论文介绍了一个新的迭代舍入框架并用于许多聚类问题的近似算法,该算法可以大幅改善现有算法的近似比,并且通过前处理程序将几乎积分解转换为完全积分解。
Nov, 2017