Jun, 2023

通过数据选择探索实世界图像分类中的数据冗余

TL;DR提出了两种基于神经突触智能和梯度范数的数据估值指标,通过在线聚类和基于考察数据值的分组提出了新的数据选择算法。在线方法使用逐层模型参数更新和每个时期梯度高效地评估数据,可以使用更少的时期和数据子集(例如,19%-59%)加速模型训练,同时在各种数据集中保持等价的水平,还可以扩展到离线 Coreset 构建,只生成原始数据的 18%-30%子集。