通过 Coresets 大规模训练高斯混合模型

Mar, 2017

Training Gaussian Mixture Models at Scale via Coresets

Mario Lucic, Matthew Faulkner, Andreas Krause, Dan Feldman

TL;DR该文章提出利用 coresets 的方法来对高斯混合模型进行计算，这种方法可以在保证训练精度的情况下减少数据量从而加快计算速度，经验结果表明，该方法可以显著减少训练时间而近似误差可以忽略不计。

Abstract

How can we train a statistical mixture model on a massive data set? In this work we show how to construct coresets for mixtures of gaussians

发现论文，激发创造

提出了一种轻量级 coresets 算法，用于 k-means 聚类和 Bregman 聚类，能同时允许乘性和加性误差，在计算效率和结果集大小方面优于现有方法，并可用于统计 k-means 聚类的计算小型模型的摘要。

Feb, 2017

本文研究 coresets 和机器学习领域中的最新进展，提出了一种理论上可行的框架来创建分类问题的 coresets，应用到了 $k$-means 聚类问题，同时总结了当前在 MLE 混合模型、贝叶斯非参数模型、主成分分析、回归和经验风险最小化等领域中已有的 coreset 构建算法。

Mar, 2017

该文章提出了一种稳健的 coreset 构建算法，在中心化和分布式框架下生成符合一定理论条件的 coreset，以支持各类机器学习问题的高效求解。实验证明该算法具有较强的健壮性。

Apr, 2019

该研究通过对 coresets 的研究，建立了一个统计框架，分析了非参数密度估计等任务的最小最大估计率，并表明实际 coreset 核密度估计器在很大程度上是接近最小最大优化的。

Nov, 2020

本文提出了一种基于 Bayesian 方法的核心子集构造算法，可有效加速后验推断算法，适用于大规模数据集。该方法具有明显的理论保证和实际效果。

May, 2016

提出了一种使用 Bregman 差异构建强核心集的单一实用算法，可用于广泛的硬聚类和软聚类问题，并演示了该算法的实用性。

Aug, 2015

本文提出了一种解决大规模稀疏矩阵降维问题的实用方法，该方法使用核心集来近似计算矩阵的降维近似值，是计算低秩近似的有效算法。

Mar, 2015

本研究提出了一种基于稀疏约束变分推断视角的 Riemannian coresets 构建算法，与过去的方法相比，该算法不需要一个合理的后验近似。实验结果表明，提出的算法能够不断改善 coreset，大大减小 KL 散度，从而提供最先进的 Bayesian 数据集概括。

Jun, 2019

本研究提出了一种基于双层优化的核心集构建方式，可以高效产生适用于深度神经网络的小数据摘要，在连续学习和数据流场景中具有实际好处。

Jun, 2020

本研究提出一种称为 coresets 的降维方法，可用于在高维欧几里得空间中降低大量数据点的大小，适用于多种数据分析技术，包括 k-means 聚类、主成分分析和子空间聚类，并允许流式处理或分布式算法，其大小与输入点的数量和维度无关。

Jul, 2018