Jun, 2023

线性模型和两层线性卷积神经网络中批归一化的隐式偏差

TL;DR本论文研究了批归一化在梯度下降中的隐性偏差,证明了学习用批归一化的线性模型进行二进制分类时,梯度下降会以 $exp(-Ω(log^2 t))$ 收敛到训练数据上的均匀边缘分类器。这将批归一化的线性模型与不带批归一化的模型区分开来,其隐性偏差类型和收敛速率都不同。论文还将结果扩展到一类二层,单滤波器线性卷积神经网络,并证明批归一化隐含着对逐块均匀边缘的偏离。论文在两个例子中表明,对于某些学习问题,逐块均匀边缘分类器可以胜过最大边缘分类器。这些结果有助于更好地理解批归一化。