ICLRSep, 2022
Transformer 进一步预训练的自蒸馏方法
Self-Distillation for Further Pre-training of Transformers
Seanie Lee, Minki Kang, Juho Lee, Sung Ju Hwang, Kenji Kawaguchi
TL;DR本文提出了自蒸馏(self-distillation)作为进一步预训练阶段的正则化方法来解决 Vision Transformer 模型在目标未标记数据上预训练的过拟合问题,最终在图像分类和文本分类任务中优于相关基线。