本研究提出了一种连续概率双层形式的核心集选择方法,通过学习每个训练样本的概率权重,该方法在标签噪声和类别不平衡情形下表现出优越性。
Jan, 2023
本文研究 coresets 和机器学习领域中的最新进展,提出了一种理论上可行的框架来创建分类问题的 coresets,应用到了 $k$-means 聚类问题,同时总结了当前在 MLE 混合模型、贝叶斯非参数模型、主成分分析、回归和经验风险最小化等领域中已有的 coreset 构建算法。
Mar, 2017
该文章提出了一种稳健的 coreset 构建算法,在中心化和分布式框架下生成符合一定理论条件的 coreset,以支持各类机器学习问题的高效求解。实验证明该算法具有较强的健壮性。
Apr, 2019
提出了一种轻量级 coresets 算法,用于 k-means 聚类和 Bregman 聚类,能同时允许乘性和加性误差,在计算效率和结果集大小方面优于现有方法,并可用于统计 k-means 聚类的计算小型模型的摘要。
Feb, 2017
本文提出了一种基于 Bayesian 方法的核心子集构造算法,可有效加速后验推断算法,适用于大规模数据集。该方法具有明显的理论保证和实际效果。
May, 2016
该文章提出利用 coresets 的方法来对高斯混合模型进行计算,这种方法可以在保证训练精度的情况下减少数据量从而加快计算速度,经验结果表明,该方法可以显著减少训练时间而近似误差可以忽略不计。
本文介绍了一个在线核心集选择算法(Online Coreset Selection),通过该算法可以从数据集中选择最具代表性和信息量最大的样本,从而来改善连续学习过程中的遗忘问题,提高模型的效果和效率。该算法在多个标准、不平衡和有噪声的数据集上得到了验证,并且相对于其他算法具有更好的抗遗忘特性和样本利用率。
Jun, 2021
提出了 CREST 框架,基于 coresets 实现了基于非凸优化问题的深度学习模型的高效和可扩展训练,可以通过快速选择最有价值的训练数据子集来提高学习速度,同时保持高精度。
Jun, 2023
提出了一种自动实用的框架,用于构建 coreset,该框架不需要进行其他任务相关计算,只需要用户提供输入数据和所需的成本函数,通过将损失函数的近似问题简化为矢量和近似的实例,从而将构建 coreset 的问题转化为矢量和近似的问题。同时,还提供了易于使用的系统,可以从而广泛地应用 coreset 于许多问题上
May, 2023
该研究通过对 coresets 的研究,建立了一个统计框架,分析了非参数密度估计等任务的最小最大估计率,并表明实际 coreset 核密度估计器在很大程度上是接近最小最大优化的。
Nov, 2020