可扩展贝叶斯逻辑回归的核心集
该研究利用数据冗余缩小数据集作为预处理步骤,通过 Bayesian coreset framework 建立 Hilbert coresets,即在对数似然函数空间的内积引导下构造的 Bayesian coreset,提供具有理论保证的全自动可伸缩的 Bayesian 推断,从而提高了推断的质量,降低了计算成本。
Oct, 2017
本研究提出了一种基于稀疏约束变分推断视角的 Riemannian coresets 构建算法,与过去的方法相比,该算法不需要一个合理的后验近似。实验结果表明,提出的算法能够不断改善 coreset,大大减小 KL 散度,从而提供最先进的 Bayesian 数据集概括。
Jun, 2019
Bayesian coresets can speed up posterior inference by approximating the full-data log-likelihood function with a surrogate log-likelihood based on a small, weighted subset of the data. This paper provides general upper and lower bounds on the Kullback-Leibler divergence of coreset approximations, applicable in a wide range of models, and demonstrates the theory's flexibility in validation experiments involving multimodal, unidentifiable, heavy-tailed Bayesian posterior distributions.
May, 2024
该文章提出利用 coresets 的方法来对高斯混合模型进行计算,这种方法可以在保证训练精度的情况下减少数据量从而加快计算速度,经验结果表明,该方法可以显著减少训练时间而近似误差可以忽略不计。
Mar, 2017
使用核心集理论应用于 logistic 回归模型的研究,提出一个统计学上解释直观的复杂度度量方法,并发展了一个新的灵敏度采样方案来处理 logistic 回归中的大量数据,并在真实世界的 logistic 回归基准数据上比较了其性能。
May, 2018
该文章提出了一种稳健的 coreset 构建算法,在中心化和分布式框架下生成符合一定理论条件的 coreset,以支持各类机器学习问题的高效求解。实验证明该算法具有较强的健壮性。
Apr, 2019
本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较,并发现了它们有效性上的不一致性,很多情况下这些方法都没有超过简单的均匀抽样。
Jan, 2023
该研究表明,先前的贝叶斯核心子集构建算法在估计后验不确定性时存在不足;因此,提出了一种新的贝叶斯核心子集构建算法 ——GIGA,其优化核心对数似然度以实现后验不确定性的准确估计并且同时保持较快的计算速度。最后在合成和实际数据集上验证了 GIGA 的有效性。
Feb, 2018
本文研究 coresets 和机器学习领域中的最新进展,提出了一种理论上可行的框架来创建分类问题的 coresets,应用到了 $k$-means 聚类问题,同时总结了当前在 MLE 混合模型、贝叶斯非参数模型、主成分分析、回归和经验风险最小化等领域中已有的 coreset 构建算法。
Mar, 2017