ICMLJun, 2024

通过近似和共享反向传播减少微调内存开销

TL;DR本文主要关注细调预训练大型模型的内存开销问题,从激活函数和层归一化的角度来减轻内存开销,并通过引入 Approx-BP 理论,提出了 GELU 和 SiLU 激活函数的内存高效替代方案,以及 Memory-Sharing Backpropagation 策略来减少内存使用冗余。实验表明,该方法能够降低高达 30% 的内存使用率。