Apr, 2022

FoundationLayerNorm: 将 BERT 和 GPT 扩展至 1,000 层

TL;DR本研究提出了一种简单有效的方法,使用 FoundationLayerNormalization 可以实现深度学习神经网络的高效训练。作者成功地将 BERT 和 GPT 升级到 1,000 层,比之前的模型深度大数个数量级。