Oct, 2018
梯度下降对齐深度线性网络的层
Gradient descent aligns the layers of deep linear networks
TL;DR本篇论文研究了在线性可分数据上应用于深度线性网络的梯度流和梯度下降的风险收敛和渐进权重矩阵对齐——一种隐式正则化方法,详细说明了在套用于严格递减损失函数时(梯度下降的递减步长也是如此):(i)风险趋近于0;(ii)标准化的第i个权重矩阵渐进等于其秩-1逼近;(iii)这些秩-1矩阵在层之间对齐,即 |vi+1^Tv_i| -> 1。特别地,在逻辑损失(二元交叉熵)的情况下,还可以说更多的结论:网络激发的线性函数——其权重矩阵的乘积——趋向于与最大边际解同方向。这种性质在之前的工作中已被证明,但仅基于对梯度下降的假设,这里的对齐现象可以证明这些假设。