Feb, 2022

使用尺度不变架构强化神经网络训练

TL;DR本文提出了通过修改网络结构,使其缩放不变,并使用 SGD 和权重衰减进行训练的通用方法,并证明了此方法不仅可以实现稳健的训练,还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本,其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。