Mar, 2020
ReZero 是您所需的:在大深度下快速收敛
ReZero is All You Need: Fast Convergence at Large Depth
Thomas Bachlechner, Bodhisattwa Prasad Majumder, Huanru Henry Mao, Garrison W. Cottrell, Julian McAuley
TL;DR通过使用零初始化参数对残差连接进行门控,满足初始动态等性,可以在深度学习中进行更快的收敛和更好的测试表现,并且我们可以轻松地训练 120 层变压器。