May, 2022

减少大型 Transformer 模型中的激活重新计算

TL;DR本文通过降低激活记录的方法展示了如何显著加速大型 Transformer 模型的训练,并介绍了两种新颖且非常简单的技术:序列并行和选择性激活重算,这些技术几乎消除了重新计算激活的需要,同时减少了超过 90% 的执行时间开销和 5 倍的激活存储器减少。