Oct, 2021
使用深度内核整形快速训练深度神经网络,无需跳跃连接或标准化层
Rapid training of deep neural networks without skip connections or normalization layers using Deep Kernel Shaping
James Martens, Andy Ballard, Guillaume Desjardins, Grzegorz Swirszcz, Valentin Dalibard...
TL;DR通过神经切线核理论和 Deep Kernel Shaping 方法,我们成功控制了深度神经网络的初始化时间内核函数的 “形状”,实现了无归一化层的残差网络的快速 SGD 训练,并同时提高了一些传统上性能非常差的激活函数的结果。