Mar, 2018

平均权重导致更宽的随机局部极小值和更好的泛化

TL;DR通过在 SGD 轨迹上抽样多个点进行简单平均,Stochastic Weight Averaging(SWA)过程实现了比传统训练更好的泛化,SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高,而且 SWA 实现简单、无几乎不需要计算成本。