ICLRApr, 2024
加速训练 Transformer 模型的多层框架
A Multi-Level Framework for Accelerating Training Transformer Models
Longwei Zou, Han Zhang, Yangdong Deng
TL;DR我们提出了一个多层框架,通过合并和解散以及插值操作来加速训练,从而降低了 BERT/GPT-Base 模型的计算成本约 20%,以及 BERT-Large 模型的计算成本高达 51.6%,同时保持了性能。