CVPRApr, 2024

DeiT-LT 蒸馏对长尾数据集的视觉 Transformer 训练再次起效

TL;DR利用 DeiT-LT 方案能够在长尾数据集上从头开始训练 ViT,并使用蒸馏 DIST 令牌通过在 ViT 架构中使用不同的令牌来学习对应于多数和少数类的特征。