ICLROct, 2022

对称性,平坦极小值,以及梯度流守恒量

TL;DR通过使用激活函数的同变性并将其推广到非线性神经网络,找到了一些全局最小值的低误差谷,该方法可以提高鲁棒性,并提供了有关初始化影响的见解。