本研究提出了一种基于双层优化的核心集构建方式,可以高效产生适用于深度神经网络的小数据摘要,在连续学习和数据流场景中具有实际好处。
Jun, 2020
该文章提出了一种稳健的 coreset 构建算法,在中心化和分布式框架下生成符合一定理论条件的 coreset,以支持各类机器学习问题的高效求解。实验证明该算法具有较强的健壮性。
Apr, 2019
本文介绍了一个在线核心集选择算法(Online Coreset Selection),通过该算法可以从数据集中选择最具代表性和信息量最大的样本,从而来改善连续学习过程中的遗忘问题,提高模型的效果和效率。该算法在多个标准、不平衡和有噪声的数据集上得到了验证,并且相对于其他算法具有更好的抗遗忘特性和样本利用率。
Jun, 2021
本文提出了一种基于 Bayesian 方法的核心子集构造算法,可有效加速后验推断算法,适用于大规模数据集。该方法具有明显的理论保证和实际效果。
May, 2016
深度学习算法中,通过核心集选择来减少计算成本和加速数据处理。在满足模型性能的前提下,通过优先级顺序,我们提出了一种创新方法来选择尽可能小的核心集,以更低的成本和更高的加速度实现更好的模型性能。
Nov, 2023
我们介绍了一种新颖的方法,通过核心子集选择进行重新加权,从而在计算时间和模型性能方面实现了优化,从而实现了计算效率和模型准确性之间的平衡。实验结果证实了这种方法的有效性,突出了它作为可扩展和精确的模型训练解决方案的潜力。
Mar, 2024
通过开发一个新的算法 COPS,我们提出了一个理论上最佳的解决方案,以最小化从样本数据训练的模型的预期损失。我们的方法在深度学习任务中可以有效地应用,通过使用模型的对数几率来估计采样比例,并通过低密度样本的降权方法来解决模型对错误规范的敏感性挑战。实证实验表明,COPS 相对于基线方法具有卓越的性能。
Sep, 2023
本文提出 DeepCore 库,并对目前主要的 coreset 选择方法在 CIFAR10 和 ImageNet 数据集上进行了实证研究,结果表明,虽然各种方法在某些实验设置上具有优势,但随机选择仍然是一个强有力的基准。
Apr, 2022
利用大训练集训练模型以在不同分布的较小测试集上表现良好的任务中,通过为每个训练数据点学习权重是一种吸引人的解决方案,但传统的双层优化算法可能导致次优解,这表明了数据重新加权的困难,并解释了为何这种方法很少在实践中使用。
Oct, 2023
本文介绍了一种基于多目标进化算法的新型候选核心集优化方法,该方法可以同时最小化点集数量和分类误差,实验结果表明该方法比现有的核心集发现技术具有更好的性能。
Feb, 2020