Mar, 2021

短暖身快速可靠训练

TL;DR本文提出了三种改进的IBP方法:权重初始化方法、在每个图层中完全添加批量归一化以减少ReLU激活状态的不平衡,设计正则化以在wamrup期间显式加紧证明的范围并平衡ReLU激活状态。使用很短的训练计划(分别为160和80个总时代),我们能够在CIFAR-10(ε=8/255)和TinyImageNet(ε=1/255)上实现65.03%和82.36%的验证错误,并在相同的网络架构下优于使用相同的网络架构在数百个或数千个阶段进行训练的文献SOTA。