基于双层优化的核心集在持续学习与流式处理中的应用

Jun, 2020

基于双层优化的核心集在持续学习与流式处理中的应用

Coresets via Bilevel Optimization for Continual Learning and Streaming

Zalán Borsos, Mojmír Mutný, Andreas Krause

TL;DR本研究提出了一种基于双层优化的核心集构建方式，可以高效产生适用于深度神经网络的小数据摘要，在连续学习和数据流场景中具有实际好处。

Abstract

coresets are small data summaries that are sufficient for model training. They can be maintained online, enabling efficient handling of large data streams under resource constraints. However, existing constructio

coresets model training neural networks continual learning streaming settings

发现论文，激发创造

概率双层核心集选择

本研究提出了一种连续概率双层形式的核心集选择方法，通过学习每个训练样本的概率权重，该方法在标签噪声和类别不平衡情形下表现出优越性。

Jan, 2023

机器学习实用核心集构建

本文研究 coresets 和机器学习领域中的最新进展，提出了一种理论上可行的框架来创建分类问题的 coresets，应用到了 $k$-means 聚类问题，同时总结了当前在 MLE 混合模型、贝叶斯非参数模型、主成分分析、回归和经验风险最小化等领域中已有的 coreset 构建算法。

Mar, 2017

分布式机器学习的鲁棒性核心集构建

该文章提出了一种稳健的 coreset 构建算法，在中心化和分布式框架下生成符合一定理论条件的 coreset，以支持各类机器学习问题的高效求解。实验证明该算法具有较强的健壮性。

Apr, 2019

基于轻量级核心集的可扩展 k 均值聚类

提出了一种轻量级 coresets 算法，用于 k-means 聚类和 Bregman 聚类，能同时允许乘性和加性误差，在计算效率和结果集大小方面优于现有方法，并可用于统计 k-means 聚类的计算小型模型的摘要。

Feb, 2017

可扩展贝叶斯逻辑回归的核心集

本文提出了一种基于 Bayesian 方法的核心子集构造算法，可有效加速后验推断算法，适用于大规模数据集。该方法具有明显的理论保证和实际效果。

May, 2016

通过 Coresets 大规模训练高斯混合模型

该文章提出利用 coresets 的方法来对高斯混合模型进行计算，这种方法可以在保证训练精度的情况下减少数据量从而加快计算速度，经验结果表明，该方法可以显著减少训练时间而近似误差可以忽略不计。

Mar, 2017

基于重复学习的在线核心集选择

本文介绍了一个在线核心集选择算法（Online Coreset Selection），通过该算法可以从数据集中选择最具代表性和信息量最大的样本，从而来改善连续学习过程中的遗忘问题，提高模型的效果和效率。该算法在多个标准、不平衡和有噪声的数据集上得到了验证，并且相对于其他算法具有更好的抗遗忘特性和样本利用率。

Jun, 2021

朝向可持续学习：用于数据高效深度学习的核心集

提出了 CREST 框架，基于 coresets 实现了基于非凸优化问题的深度学习模型的高效和可扩展训练，可以通过快速选择最有价值的训练数据子集来提高学习速度，同时保持高精度。

Jun, 2023

AutoCoreset: 自动实用的 Coreset 构建框架

提出了一种自动实用的框架，用于构建 coreset，该框架不需要进行其他任务相关计算，只需要用户提供输入数据和所需的成本函数，通过将损失函数的近似问题简化为矢量和近似的实例，从而将构建 coreset 的问题转化为矢量和近似的问题。同时，还提供了易于使用的系统，可以从而广泛地应用 coreset 于许多问题上

May, 2023

基于统计学视角的 Coreset 密度估计

该研究通过对 coresets 的研究，建立了一个统计框架，分析了非参数密度估计等任务的最小最大估计率，并表明实际 coreset 核密度估计器在很大程度上是接近最小最大优化的。

Nov, 2020