概率双层核心集选择

Jan, 2023

Probabilistic Bilevel Coreset Selection

Xiao Zhou, Renjie Pi, Weizhong Zhang, Yong Lin, Tong Zhang

TL;DR本研究提出了一种连续概率双层形式的核心集选择方法，通过学习每个训练样本的概率权重，该方法在标签噪声和类别不平衡情形下表现出优越性。

Abstract

The goal of coreset selection in supervised learning is to produce a weighted subset of data, so that training only on the subset achieves similar performance as training on the entire dataset. Existing methods a

coreset selection supervised learning probabilistic weight bilevel optimization label-noise

发现论文，激发创造

基于双层优化的核心集在持续学习与流式处理中的应用

本研究提出了一种基于双层优化的核心集构建方式，可以高效产生适用于深度神经网络的小数据摘要，在连续学习和数据流场景中具有实际好处。

Jun, 2020

分布式机器学习的鲁棒性核心集构建

该文章提出了一种稳健的 coreset 构建算法，在中心化和分布式框架下生成符合一定理论条件的 coreset，以支持各类机器学习问题的高效求解。实验证明该算法具有较强的健壮性。

Apr, 2019

基于重复学习的在线核心集选择

本文介绍了一个在线核心集选择算法（Online Coreset Selection），通过该算法可以从数据集中选择最具代表性和信息量最大的样本，从而来改善连续学习过程中的遗忘问题，提高模型的效果和效率。该算法在多个标准、不平衡和有噪声的数据集上得到了验证，并且相对于其他算法具有更好的抗遗忘特性和样本利用率。

Jun, 2021

可扩展贝叶斯逻辑回归的核心集

本文提出了一种基于 Bayesian 方法的核心子集构造算法，可有效加速后验推断算法，适用于大规模数据集。该方法具有明显的理论保证和实际效果。

May, 2016

具有优先多目标的核心集选择

深度学习算法中，通过核心集选择来减少计算成本和加速数据处理。在满足模型性能的前提下，通过优先级顺序，我们提出了一种创新方法来选择尽可能小的核心集，以更低的成本和更高的加速度实现更好的模型性能。

Nov, 2023

少数精华：加速和增强数据重新加权与核心集选择

我们介绍了一种新颖的方法，通过核心子集选择进行重新加权，从而在计算时间和模型性能方面实现了优化，从而实现了计算效率和模型准确性之间的平衡。实验结果证实了这种方法的有效性，突出了它作为可扩展和精确的模型训练解决方案的潜力。

Mar, 2024

通过不确定性估计进行最佳样本选择及其在深度学习中的应用

通过开发一个新的算法 COPS，我们提出了一个理论上最佳的解决方案，以最小化从样本数据训练的模型的预期损失。我们的方法在深度学习任务中可以有效地应用，通过使用模型的对数几率来估计采样比例，并通过低密度样本的降权方法来解决模型对错误规范的敏感性挑战。实证实验表明，COPS 相对于基线方法具有卓越的性能。

Sep, 2023

DeepCore: 深度学习中数据子集选择的全面库

本文提出 DeepCore 库，并对目前主要的 coreset 选择方法在 CIFAR10 和 ImageNet 数据集上进行了实证研究，结果表明，虽然各种方法在某些实验设置上具有优势，但随机选择仍然是一个强有力的基准。

Apr, 2022

使用双层优化重新加权数据的挑战

利用大训练集训练模型以在不同分布的较小测试集上表现良好的任务中，通过为每个训练数据点学习权重是一种吸引人的解决方案，但传统的双层优化算法可能导致次优解，这表明了数据重新加权的困难，并解释了为何这种方法很少在实践中使用。

Oct, 2023

利用多目标进化算法揭示分类问题的核心集

本文介绍了一种基于多目标进化算法的新型候选核心集优化方法，该方法可以同时最小化点集数量和分类误差，实验结果表明该方法比现有的核心集发现技术具有更好的性能。

Feb, 2020