Oct, 2023

D2 剪枝:数据剪枝中的信息传递平衡多样性和难度

TL;DR通过使用 D2 修剪算法,将数据集表示为无向图,并进行前向和反向消息传递,综合考虑数据的多样性和难度评分来选择 Coreset,该方法在多个视觉和语言数据集上超越了现有最先进方法的 Coreset 选择效果,对于剪枝率高达 70%,使用 D2 修剪算法来过滤大型多模态数据集可以增加数据集的多样性并改善预训练模型的一般化能力。