Apr, 2024

加速训练Transformer模型的多层框架

TL;DR我们提出了一个多层框架,通过合并和解散以及插值操作来加速训练,从而降低了BERT/GPT-Base模型的计算成本约20%,以及BERT-Large模型的计算成本高达51.6%,同时保持了性能。