BriefGPT.xyz
Feb, 2022
使用尺度不变架构强化神经网络训练
Robust Training of Neural Networks using Scale Invariant Architectures
HTML
PDF
Zhiyuan Li, Srinadh Bhojanapalli, Manzil Zaheer, Sashank J. Reddi, Sanjiv Kumar
TL;DR
本文提出了通过修改网络结构,使其缩放不变,并使用 SGD 和权重衰减进行训练的通用方法,并证明了此方法不仅可以实现稳健的训练,还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本,其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。
Abstract
In contrast to
sgd
,
adaptive gradient methods
like Adam allow robust training of modern deep networks, especially large language models. However, the use of adaptivity not only comes at the cost of extra memory b
→