Mar, 2025

无归一化的变换器

TL;DR本研究解决了现代神经网络中归一化层被普遍认为不可或缺的问题。我们提出了一种名为动态双曲正切(DyT)的新方法,作为变换器中归一化层的替代,显示出无归一化的变换器依然能够实现相同或更好的性能。最重要的发现是,DyT的引入使得变换器在多个学习设置中表现优异,挑战了归一化层在深度网络中的传统地位。