ICLRSep, 2022

Transformer 进一步预训练的自蒸馏方法

TL;DR本文提出了自蒸馏(self-distillation)作为进一步预训练阶段的正则化方法来解决 Vision Transformer 模型在目标未标记数据上预训练的过拟合问题,最终在图像分类和文本分类任务中优于相关基线。