ICLRMar, 2021

ReLU 网络中批归一化的解析:等价的凸优化模型与隐式正则化

TL;DR本文通过凸优化的视角分析 Batch Normalization,提出了一个基于凸对偶的解析框架,可以精确地描述用 Batch Normalization 训练的带有权重衰减的 ReLU 网络,并证明在高维和过参数化情况下,理论上可以获得一些简单的解析的最优层权重和可训练的凸约束优化问题,并发现梯度下降给标准的非凸 BN 网络提供了算法偏差效应,通过我们的方法可以将这种隐式正则化显性编码到凸目标中,实验结果表明该方法可以模拟和显著提高标准 BN 网络的性能。