May, 2018
批归一化的指数收敛速率:在非凸优化中实现长度 - 方向解耦的力量
Exponential convergence rates for Batch Normalization: The power of length-direction decoupling in non-convex optimization
Jonas Kohler, Hadi Daneshmand, Aurelien Lucchi, Ming Zhou, Klaus Neymeyr...
TL;DR我们通过对多个机器学习实例进行研究,证明了 Batch Normalization 在优化任务中的加速效果源于其将参数长度和方向分开进行优化,针对这些机器学习问题,Batch Normalization 可以是一种收敛算法。