ICLRApr, 2024

加速训练 Transformer 模型的多层框架

TL;DR我们提出了一个多层框架,通过合并和解散以及插值操作来加速训练,从而降低了 BERT/GPT-Base 模型的计算成本约 20%,以及 BERT-Large 模型的计算成本高达 51.6%,同时保持了性能。