Mar, 2020

ReZero 是您所需的:在大深度下快速收敛

TL;DR通过使用零初始化参数对残差连接进行门控,满足初始动态等性,可以在深度学习中进行更快的收敛和更好的测试表现,并且我们可以轻松地训练 120 层变压器。