Jun, 2022

GACT: 通用网络结构激活压缩训练

TL;DR本文提出了 GACT,一种用于支持各种神经网络结构的 ACT 框架,旨在减小训练内存占用。通过分析 ACT 的近似梯度的线性化版本,我们证明了 GACT 的收敛性,而且不需要关于操作符类型或模型架构的先验知识。此外,我们提出了一种算法,通过估计每个张量对梯度的影响来决定压缩比率,以保证训练的稳定性。GACT 作为 PyTorch 库的实现,可用于卷积神经网络,transformers 和图神经网络,在使用 8.1 倍的较小的激活存储器减少训练内存占用,并且在几乎没有精度损失的情况下可以进行 4.2 到 24.7 倍的大批量训练。