BriefGPT.xyz
Mar, 2025
无归一化的变换器
Transformers without Normalization
HTML
PDF
Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
TL;DR
本研究解决了现代神经网络中归一化层被普遍认为不可或缺的问题。我们提出了一种名为动态双曲正切(DyT)的新方法,作为变换器中归一化层的替代,显示出无归一化的变换器依然能够实现相同或更好的性能。最重要的发现是,DyT的引入使得变换器在多个学习设置中表现优异,挑战了归一化层在深度网络中的传统地位。
Abstract
Normalization
layers are ubiquitous in modern
Neural Networks
and have long been considered essential. This work demonstrates that
Transformers
→