Dec, 2017

由 Adam 优化器转为 SGD 优化器提升泛化性能

TL;DR提出一种混合方法 SWATS 进行训练,开头使用自适应方法 Adam,后期如果符合一定条件则切换至 SGD。实验证明,SWATS 能够缩短自适应方法和 SGD 之间的泛化差距,在多数任务上表现良好。