学习增强 K 均值聚类

ICLROct, 2021

Learning-Augmented $k$-means Clustering

Jon C. Ergun, Zhili Feng, Sandeep Silwal, David P. Woodruff, Samson Zhou

TL;DR通过引入预测器，本文提出了一种新的 $k$-means 聚类算法，可以提高聚类的质量和效率，打破了此前关于 $k$-means 问题的计算难点。

Abstract

$k$-means clustering is a well-studied problem due to its wide applicability. Unfortunately, there exist strong theoretical limits on the performance of any algorithm for the $k$-means problem on worst-case input

k-means clustering predictor algorithm advice

发现论文，激发创造

增强 k-means 的聚类效果

本技术报告介绍了一种名为增强的 k-means 的算法，该算法是 k-means 和逻辑回归的混合体，通过逻辑回归预测当前聚类标签并使用聚类归属概率来控制后续集群均值的重新估计，能有效提高聚类准确性。该算法在 Python 环境下实现。

May, 2017

学习增强的降维 K 均值聚类

使用主成分分析（PCA）降低数据集的维度，提高 k-means 算法在特定质心下的预测性能和降低成本。

Jan, 2024

利用 k-means 进行图像分类的对抗鲁棒性

本研究探讨了增强 $k$-means 聚类算法对抗性操纵的挑战和策略，评估了聚类算法对抗性攻击的易受攻击性，强调了相关的安全风险，并研究了攻击强度对训练的影响，引入了有监督和无监督模型之间的可传递性概念，并突出了无监督模型对样本分布的敏感性。此外，我们还引入和评估了一种对抗性训练方法，该方法提高了在对抗情景下的测试性能，并强调了所提出训练方法中的各种参数的重要性，如连续学习、质心初始化和对抗步数。

Dec, 2023

可扩展核聚类：近似核 k-means

本文提出了一种基于随机化的近似核 K-means 簇算法，其利用采样点与数据集中所有点之间的核相似性来近似聚类中心，实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求，最后利用集成聚类技术进一步提高算法性能。

Feb, 2014

在线度量算法的混合预测

本文阐述了一种基于多种算法或预测器的学习增强在线算法技术，通过针对在线问题的分析，设计出与动态组合相竞争的算法，能够在多种预测器之间切换，具有灵活性和实用性。

Apr, 2023

分类的自适应最近邻规则

该论文提出了一种改进的 K 近邻分类器，它可以自适应地为每个查询选择 K，该选择取决于每个邻域的属性，因此可能在不同点之间显着变化，并且可以利用条件概率推导推导出一些收敛界限。

May, 2019

基于聚类敏感性采样的数据高效学习：基础模型与扩展

我们研究数据选择问题，将利用 $k$-means 聚类和敏感性抽样方法，基于模型损失的嵌入表示，可选择一组典型样本，其平均损失与整个数据集的平均损失相对应，具有可证明的性质，并且在微调基础模型上表现优于最先进的方法，同时展示了它如何应用于线性回归，提供了一个更简单且可扩展性更强的抽样策略。

Feb, 2024

集群关闭的快速近似 $k$ 均值算法

本文提出了一种新的近似 k-means 算法，采用多个随机空间分区树将数据预先组装成相邻点的组，并使用邻域信息构造每个簇的闭合形式，从而在分配步骤中只需考虑少量簇的候选项，证明该方法在聚类质量和效率方面优于现有的近似 k-means 算法。

Dec, 2013

欧几里得 k-means 的稳定实例聚类

本文研究在实际应用中，哪些加性扰动稳定性的实例可以设计有效算法，并证明它们能找到最优聚类。我们提出了一种稳定性定义，并设计了算法以证明稳定实例的最优聚类。当实例具有一定的分离性时，我们显示出一种具有证明保证的鲁棒算法，也能容忍异常值。通过研究真实数据集的稳定性，我们补充了这些结果，并展示了我们的算法在这些基准数据集上的表现。

Dec, 2017

预测聚类与优化的普适性框架

本文研究了一种以监督学习为基础的聚类分析方法，该方法结合了回归和分类，采用整数线性规划方法以及高度可扩展的贪心算法，支持不同类型的聚类定义，并能够展示数据中不同的可解释性的离散聚类结构。

May, 2023