BriefGPT.xyz
Ask
alpha
关键词
selective activation recomputation
搜索结果 - 1
减少大型 Transformer 模型中的激活重新计算
本文通过降低激活记录的方法展示了如何显著加速大型 Transformer 模型的训练,并介绍了两种新颖且非常简单的技术:序列并行和选择性激活重算,这些技术几乎消除了重新计算激活的需要,同时减少了超过 90% 的执行时间开销和 5 倍的激活存
→
PDF
2 years ago
Prev
Next