指数权重平均作为阻尼谐振
本文研究了在 GAN 训练中参数平均的两种不同技术:移动平均和指数移动平均。作者提供了 EMA 技术的第一篇理论支持,并通过对许多数据集的实证实验验证了 EMA 和 MA 技术的显著有效性。
Jun, 2018
在存在模型 EMA 的优化中,我们提供了一个缩放规则,并证明其在各种架构、优化器和数据模态下的有效性,同时还展示了模型 EMA 对目标模型优化的贡献,使我们能够在小批量和大批量训练下使用 EMA 基于伪标记和自监督学习的方法,以最佳化 6 倍的壁钟时间降低的条件下训练 BYOL。
Jul, 2023
提出了一种基于指数移动平均(EMA)的预测模型,并通过实验证明了其在预测准确性上的优势,尽管计算复杂度略微增加,但在任何实验条件下以比 EMA 显著更好的性能提供了可观的改进。
Dec, 2023
利用一行修改将 EMA 参数切换到原始模型并揭示了 Switch EMA(SEMA)的充分潜力,该方法能够帮助深度神经网络在平坦性和尖锐性之间取得更好的泛化最优解,并通过基于视觉和语言数据集的比较实验证实了 SEMA 的有效性。
Feb, 2024
理论分析表明,在各种非凸优化设置中,带有模型指数移动平均(EMA)的 Adam 算法的剪切版本能够实现最佳收敛速度,尤其当坐标间尺度差异显著时,Adam 算法的坐标自适应性具有明显优势。
May, 2024
AdamW 算法中的权重可以理解为近期更新的指数移动平均 (EMA),通过 EMA 时间尺度选择合适的权重衰减,以确保权重衰减与模型和数据集的规模相匹配,并得出 EMA 时间尺度的合理取值范围。
May, 2024
通过在 SGD 轨迹上抽样多个点进行简单平均,Stochastic Weight Averaging(SWA)过程实现了比传统训练更好的泛化,SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高,而且 SWA 实现简单、无几乎不需要计算成本。
Mar, 2018
提出了自适应随机权重平均(ASWA)技术,该技术结合了随机权重平均(SWA)和提前停止技术,仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中,结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。
Jun, 2024