Nov, 2019

理解和改善层归一化

TL;DR本研究主要探讨了 LayerNorm 技术的有效性以及如何优化其性能,提出了一种新的规范化方法 AdaNorm,其实验结果比传统 LayerNorm 方法更好。