可扩展贝叶斯逻辑回归的核心集

NIPSMay, 2016

Coresets for Scalable Bayesian Logistic Regression

Jonathan H. Huggins, Trevor Campbell, Tamara Broderick

TL;DR本文提出了一种基于 Bayesian 方法的核心子集构造算法，可有效加速后验推断算法，适用于大规模数据集。该方法具有明显的理论保证和实际效果。

Abstract

The use of bayesian methods in large-scale data settings is attractive because of the rich hierarchical models, uncertainty quantification, and prior specification they provide. Standard Bayesian inference algori

bayesian methods large-scale data coreset construction algorithm logistic regression models posterior inference algorithms

发现论文，激发创造

通过希尔伯特核心集实现自动可扩展的贝叶斯推断

该研究利用数据冗余缩小数据集作为预处理步骤，通过 Bayesian coreset framework 建立 Hilbert coresets，即在对数似然函数空间的内积引导下构造的 Bayesian coreset，提供具有理论保证的全自动可伸缩的 Bayesian 推断，从而提高了推断的质量，降低了计算成本。

Oct, 2017

从头开始的稀疏变分推断：基于贝叶斯核心集

本研究提出了一种基于稀疏约束变分推断视角的 Riemannian coresets 构建算法，与过去的方法相比，该算法不需要一个合理的后验近似。实验结果表明，提出的算法能够不断改善 coreset，大大减小 KL 散度，从而提供最先进的 Bayesian 数据集概括。

Jun, 2019

贝叶斯核心集质量的一般界限

Bayesian coresets can speed up posterior inference by approximating the full-data log-likelihood function with a surrogate log-likelihood based on a small, weighted subset of the data. This paper provides general upper and lower bounds on the Kullback-Leibler divergence of coreset approximations, applicable in a wide range of models, and demonstrates the theory's flexibility in validation experiments involving multimodal, unidentifiable, heavy-tailed Bayesian posterior distributions.

May, 2024

通过 Coresets 大规模训练高斯混合模型

该文章提出利用 coresets 的方法来对高斯混合模型进行计算，这种方法可以在保证训练精度的情况下减少数据量从而加快计算速度，经验结果表明，该方法可以显著减少训练时间而近似误差可以忽略不计。

Mar, 2017

逻辑回归的核心集

使用核心集理论应用于 logistic 回归模型的研究，提出一个统计学上解释直观的复杂度度量方法，并发展了一个新的灵敏度采样方案来处理 logistic 回归中的大量数据，并在真实世界的 logistic 回归基准数据上比较了其性能。

May, 2018

分布式机器学习的鲁棒性核心集构建

该文章提出了一种稳健的 coreset 构建算法，在中心化和分布式框架下生成符合一定理论条件的 coreset，以支持各类机器学习问题的高效求解。实验证明该算法具有较强的健壮性。

Apr, 2019

基于双层优化的核心集在持续学习与流式处理中的应用

本研究提出了一种基于双层优化的核心集构建方式，可以高效产生适用于深度神经网络的小数据摘要，在连续学习和数据流场景中具有实际好处。

Jun, 2020

核心集学习现实检查

本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较，并发现了它们有效性上的不一致性，很多情况下这些方法都没有超过简单的均匀抽样。

Jan, 2023

通过贪心迭代测地线上升构建贝叶斯削减集

该研究表明，先前的贝叶斯核心子集构建算法在估计后验不确定性时存在不足；因此，提出了一种新的贝叶斯核心子集构建算法 ——GIGA，其优化核心对数似然度以实现后验不确定性的准确估计并且同时保持较快的计算速度。最后在合成和实际数据集上验证了 GIGA 的有效性。

Feb, 2018

机器学习实用核心集构建

本文研究 coresets 和机器学习领域中的最新进展，提出了一种理论上可行的框架来创建分类问题的 coresets，应用到了 $k$-means 聚类问题，同时总结了当前在 MLE 混合模型、贝叶斯非参数模型、主成分分析、回归和经验风险最小化等领域中已有的 coreset 构建算法。

Mar, 2017