核心集和草图

Jan, 2016

Coresets and Sketches

Jeff M. Phillips

TL;DR本文主要介绍了几种几何数据压缩的技术，即将大数据集压缩为概要信息，以在更短的时间内运行算法并近似完整数据集的结果。其中包括 shape-fitting、density estimation、高维向量、高维点集 / 矩阵和聚类等五种核心集合和草图的类型。

Abstract

geometric data summarization has become an essential tool in both geometric approximation algorithms and where geometry intersects with big data<

发现论文，激发创造

本文介绍了一种构建用于 k 聚类问题的一次性数据汇总摘要的有效算法，从而同时为范围广泛的聚类问题构建小型数据摘要且具备强有力的理论保证。

Nov, 2017

该研究通过对 coresets 的研究，建立了一个统计框架，分析了非参数密度估计等任务的最小最大估计率，并表明实际 coreset 核密度估计器在很大程度上是接近最小最大优化的。

Nov, 2020

本文研究 coresets 和机器学习领域中的最新进展，提出了一种理论上可行的框架来创建分类问题的 coresets，应用到了 $k$-means 聚类问题，同时总结了当前在 MLE 混合模型、贝叶斯非参数模型、主成分分析、回归和经验风险最小化等领域中已有的 coreset 构建算法。

Mar, 2017

提出了一种轻量级 coresets 算法，用于 k-means 聚类和 Bregman 聚类，能同时允许乘性和加性误差，在计算效率和结果集大小方面优于现有方法，并可用于统计 k-means 聚类的计算小型模型的摘要。

Feb, 2017

研究在大型数据集上 k-means 和 k-median 聚类的理论和实际运行限制，通过快速压缩数据并在压缩表示上进行聚类，提供了有效聚类的理论和实践蓝图。

Apr, 2024

该论文定义了函数族的类差异概念，并提出了一些技术来限制机器学习问题的班别差异，从而证明了高斯核密度估计的 coreset 复杂度存在 ε- 近似 O (sqrt {d}/epsilon) 的解法。除此之外，该论文还提供了两个与之相关的独立结果，提高了流式数据处理和核的低差异序列的发现。

Jun, 2019

该研究的主要内容是利用 coreset 技术提高 k-means 和 k-median 聚类的近似算法，并且可以在流式数据中保持聚类结果。

Oct, 2018

本研究提出一种称为 coresets 的降维方法，可用于在高维欧几里得空间中降低大量数据点的大小，适用于多种数据分析技术，包括 k-means 聚类、主成分分析和子空间聚类，并允许流式处理或分布式算法，其大小与输入点的数量和维度无关。

Jul, 2018

本文提出了一种解决大规模稀疏矩阵降维问题的实用方法，该方法使用核心集来近似计算矩阵的降维近似值，是计算低秩近似的有效算法。

Mar, 2015

该文提出了一种叫做 “通用弱核心集” 的概念，用于约束聚类设置中，与最近的约束设置下核心集构建结合使用，能够给出更大的数据压缩、概念上更简单，适用于广泛的约束 $k$- 中位数和 $k$- 均值问题。

May, 2023