Feb, 2024

有原则的考虑架构的超参数缩放

TL;DR通过对神经网络架构的深入研究,在初始化和学习率方面提出了新的原则,并验证了其对网络性能的改进,从而为当前架构设计的基准测试提供了新的方法。