利用多目标进化算法揭示分类问题的核心集

ICMLFeb, 2020

利用多目标进化算法揭示分类问题的核心集

Uncovering Coresets for Classification With Multi-Objective Evolutionary Algorithms

Pietro Barbiero, Giovanni Squillero, Alberto Tonda

TL;DR本文介绍了一种基于多目标进化算法的新型候选核心集优化方法，该方法可以同时最小化点集数量和分类误差，实验结果表明该方法比现有的核心集发现技术具有更好的性能。

Abstract

A coreset is a subset of the training set, using which a machine learning algorithm obtains performances similar to what it would deliver if trained over the whole original data. →

coreset machine learning training speed classification error evolutionary algorithm

发现论文，激发创造

AutoCoreset: 自动实用的 Coreset 构建框架

提出了一种自动实用的框架，用于构建 coreset，该框架不需要进行其他任务相关计算，只需要用户提供输入数据和所需的成本函数，通过将损失函数的近似问题简化为矢量和近似的实例，从而将构建 coreset 的问题转化为矢量和近似的问题。同时，还提供了易于使用的系统，可以从而广泛地应用 coreset 于许多问题上

May, 2023

分布式机器学习的鲁棒性核心集构建

该文章提出了一种稳健的 coreset 构建算法，在中心化和分布式框架下生成符合一定理论条件的 coreset，以支持各类机器学习问题的高效求解。实验证明该算法具有较强的健壮性。

Apr, 2019

具有优先多目标的核心集选择

深度学习算法中，通过核心集选择来减少计算成本和加速数据处理。在满足模型性能的前提下，通过优先级顺序，我们提出了一种创新方法来选择尽可能小的核心集，以更低的成本和更高的加速度实现更好的模型性能。

Nov, 2023

机器学习实用核心集构建

本文研究 coresets 和机器学习领域中的最新进展，提出了一种理论上可行的框架来创建分类问题的 coresets，应用到了 $k$-means 聚类问题，同时总结了当前在 MLE 混合模型、贝叶斯非参数模型、主成分分析、回归和经验风险最小化等领域中已有的 coreset 构建算法。

Mar, 2017

DeepCore: 深度学习中数据子集选择的全面库

本文提出 DeepCore 库，并对目前主要的 coreset 选择方法在 CIFAR10 和 ImageNet 数据集上进行了实证研究，结果表明，虽然各种方法在某些实验设置上具有优势，但随机选择仍然是一个强有力的基准。

Apr, 2022

基于重复学习的在线核心集选择

本文介绍了一个在线核心集选择算法（Online Coreset Selection），通过该算法可以从数据集中选择最具代表性和信息量最大的样本，从而来改善连续学习过程中的遗忘问题，提高模型的效果和效率。该算法在多个标准、不平衡和有噪声的数据集上得到了验证，并且相对于其他算法具有更好的抗遗忘特性和样本利用率。

Jun, 2021

离线和流式 Coreset 构建的新框架

本文提出一种改进的 coreset 构建方法，利用 sensitivity sampling 技术，并对 VC dimension 类的函数的采样复杂度进行分析，从而能够更加高效地解决包括聚类等在内的机器学习问题。

Dec, 2016

少数精华：加速和增强数据重新加权与核心集选择

我们介绍了一种新颖的方法，通过核心子集选择进行重新加权，从而在计算时间和模型性能方面实现了优化，从而实现了计算效率和模型准确性之间的平衡。实验结果证实了这种方法的有效性，突出了它作为可扩展和精确的模型训练解决方案的潜力。

Mar, 2024

朝向可持续学习：用于数据高效深度学习的核心集

提出了 CREST 框架，基于 coresets 实现了基于非凸优化问题的深度学习模型的高效和可扩展训练，可以通过快速选择最有价值的训练数据子集来提高学习速度，同时保持高精度。

Jun, 2023

基于双层优化的核心集在持续学习与流式处理中的应用

本研究提出了一种基于双层优化的核心集构建方式，可以高效产生适用于深度神经网络的小数据摘要，在连续学习和数据流场景中具有实际好处。

Jun, 2020