May, 2023

自注意力层的拟态初始化

TL;DR通过模仿预训练Transformer的权重,使用模拟初始化方案沿用这些权重,能在视觉任务中提高Vanilla Transformers的最终准确度,并使训练速度更快。