BriefGPT.xyz
大模型
Ask
alpha
关键词
activation compressed training
搜索结果 - 1
GACT: 通用网络结构激活压缩训练
本文提出了 GACT,一种用于支持各种神经网络结构的 ACT 框架,旨在减小训练内存占用。通过分析 ACT 的近似梯度的线性化版本,我们证明了 GACT 的收敛性,而且不需要关于操作符类型或模型架构的先验知识。此外,我们提出了一种算法,通过
→
PDF
2 years ago
Prev
Next