基于轻量级核心集的可扩展 k 均值聚类

KDDFeb, 2017

基于轻量级核心集的可扩展 k 均值聚类

Scalable k-Means Clustering via Lightweight Coresets

Olivier Bachem, Mario Lucic, Andreas Krause

TL;DR提出了一种轻量级 coresets 算法，用于 k-means 聚类和 Bregman 聚类，能同时允许乘性和加性误差，在计算效率和结果集大小方面优于现有方法，并可用于统计 k-means 聚类的计算小型模型的摘要。

Abstract

coresets are compact representations of data sets such that models trained on a coreset are provably competitive with models trained on the full data set. As such, they have been successfully used to scale up clustering

coresets clustering models k-means clustering bregman clustering data summarization

发现论文，激发创造

一次性核心集：k - 聚类的情形

本文介绍了一种构建用于 k 聚类问题的一次性数据汇总摘要的有效算法，从而同时为范围广泛的聚类问题构建小型数据摘要且具备强有力的理论保证。

Nov, 2017

分布式机器学习的鲁棒性核心集构建

该文章提出了一种稳健的 coreset 构建算法，在中心化和分布式框架下生成符合一定理论条件的 coreset，以支持各类机器学习问题的高效求解。实验证明该算法具有较强的健壮性。

Apr, 2019

用于硬和软 Bregman 聚类的强核心集及其在指数族混合模型中的应用

提出了一种使用 Bregman 差异构建强核心集的单一实用算法，可用于广泛的硬聚类和软聚类问题，并演示了该算法的实用性。

Aug, 2015

公平 k 均值聚类的公平核心集和流算法

本文研究公平聚类问题，提出一种利用核心集合来显著减小输入数据规模的算法，证明了核心集合的可组合性，提出了 Lloyd 算法的变体，并将其扩展为公平 k-means ++ 聚类算法，实现了这些算法并提供了经验证据，表明我们的方法得以规模化运行。

Dec, 2018

通过 Coresets 大规模训练高斯混合模型

该文章提出利用 coresets 的方法来对高斯混合模型进行计算，这种方法可以在保证训练精度的情况下减少数据量从而加快计算速度，经验结果表明，该方法可以显著减少训练时间而近似误差可以忽略不计。

Mar, 2017

机器学习实用核心集构建

本文研究 coresets 和机器学习领域中的最新进展，提出了一种理论上可行的框架来创建分类问题的 coresets，应用到了 $k$-means 聚类问题，同时总结了当前在 MLE 混合模型、贝叶斯非参数模型、主成分分析、回归和经验风险最小化等领域中已有的 coreset 构建算法。

Mar, 2017

通用弱核心集

该文提出了一种叫做 “通用弱核心集” 的概念，用于约束聚类设置中，与最近的约束设置下核心集构建结合使用，能够给出更大的数据压缩、概念上更简单，适用于广泛的约束 $k$- 中位数和 $k$- 均值问题。

May, 2023

k 均值和 k 中位数聚类的核心集及其应用

该研究的主要内容是利用 coreset 技术提高 k-means 和 k-median 聚类的近似算法，并且可以在流式数据中保持聚类结果。

Oct, 2018

基于统计学视角的 Coreset 密度估计

该研究通过对 coresets 的研究，建立了一个统计框架，分析了非参数密度估计等任务的最小最大估计率，并表明实际 coreset 核密度估计器在很大程度上是接近最小最大优化的。

Nov, 2020

将大数据转化为小数据：k 均值、主成分分析和投影聚类的常量大小核心集

本研究提出一种称为 coresets 的降维方法，可用于在高维欧几里得空间中降低大量数据点的大小，适用于多种数据分析技术，包括 k-means 聚类、主成分分析和子空间聚类，并允许流式处理或分布式算法，其大小与输入点的数量和维度无关。

Jul, 2018