Oct, 2023

RK-core: 数据集中层次结构探索的已建立方法学

TL;DR最近,机器学习领域已经从以模型为中心转向以数据为中心,通过积累更广泛的数据集,便于在这些数据集上训练更大型的模型,我们引入一种先进的方法 RK-core,以增进对数据集内复杂的层次结构的更深入了解。我们发现,核心性值较低的样本在各自类别中具有较低的代表性,而核心性值较高的样本则表现出更高的代表性。与之相关的是,核心性值较高的样本在性能上比核心性值较低的样本做出更实质的贡献。在此基础上,我们进一步运用 RK-core 来分析不同 coreset 选择方法下样本的层次结构。令人惊讶的是,高质量的 coreset 应该表现出层次多样性而不仅仅是代表性样本。