指数权重平均作为阻尼谐振

ICMLOct, 2023

Exponential weight averaging as damped harmonic motion

Jonathan Patsenker, Henry Li, Yuval Kluger

TL;DR该论文研究了指数移动平均 (EMA) 在深度学习优化中的应用，提出了一种改进的训练算法 BELAY，通过物理类比分析 EMA 的有效性，并在理论和实证上证明了 BELAY 相对于标准 EMA 的几个优点。

Abstract

The exponential moving average (EMA) is a commonly used statistic for providing stable estimates of stochastic quantities in deep learning optimization. Recently, EMA has seen considerable use in generative models

exponential moving average deep learning optimization generative models weight averaging training algorithm

发现论文，激发创造

GAN 训练中平均化的非凡有效性

本文研究了在 GAN 训练中参数平均的两种不同技术：移动平均和指数移动平均。作者提供了 EMA 技术的第一篇理论支持，并通过对许多数据集的实证实验验证了 EMA 和 MA 技术的显著有效性。

Jun, 2018

如何扩展您的 EMA

在存在模型 EMA 的优化中，我们提供了一个缩放规则，并证明其在各种架构、优化器和数据模态下的有效性，同时还展示了模型 EMA 对目标模型优化的贡献，使我们能够在小批量和大批量训练下使用 EMA 基于伪标记和自监督学习的方法，以最佳化 6 倍的壁钟时间降低的条件下训练 BYOL。

Jul, 2023

线性组合的指数移动平均用于无线信道预测

提出了一种基于指数移动平均（EMA）的预测模型，并通过实验证明了其在预测准确性上的优势，尽管计算复杂度略微增加，但在任何实验条件下以比 EMA 显著更好的性能提供了可观的改进。

Dec, 2023

Switch EMA：提供更好平缓度和锐度的免费午餐

利用一行修改将 EMA 参数切换到原始模型并揭示了 Switch EMA（SEMA）的充分潜力，该方法能够帮助深度神经网络在平坦性和尖锐性之间取得更好的泛化最优解，并通过基于视觉和语言数据集的比较实验证实了 SEMA 的有效性。

Feb, 2024

使用模型指数移动平均的 Adam 算法在非凸优化中的效果

理论分析表明，在各种非凸优化设置中，带有模型指数移动平均（EMA）的 Adam 算法的剪切版本能够实现最佳收敛速度，尤其当坐标间尺度差异显著时，Adam 算法的坐标自适应性具有明显优势。

May, 2024

如何随着模型和数据集的规模调整 AdamW 的权重衰减

AdamW 算法中的权重可以理解为近期更新的指数移动平均 (EMA)，通过 EMA 时间尺度选择合适的权重衰减，以确保权重衰减与模型和数据集的规模相匹配，并得出 EMA 时间尺度的合理取值范围。

May, 2024

指数移动平均 vs 移动指数平均

本文介绍了定义趋势指标的数学工具，并解释了均值和移动平均数与指数移动平均数之间的关系。此外，介绍了最常用的趋势指标 MACD，并讨论了其特性。

Jan, 2020

分析和改进扩散模型的训练动力学

该研究提出了改进 ADM 扩散模型架构以解决不均匀训练、网络激活以及指数移动平均参数的问题，使得图像合成在计算复杂度相等的情况下得到了显著改进。

Dec, 2023

平均权重导致更宽的随机局部极小值和更好的泛化

通过在 SGD 轨迹上抽样多个点进行简单平均，Stochastic Weight Averaging（SWA）过程实现了比传统训练更好的泛化，SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高，而且 SWA 实现简单、无几乎不需要计算成本。

Mar, 2018

自适应随机加权平均

提出了自适应随机权重平均（ASWA）技术，该技术结合了随机权重平均（SWA）和提前停止技术，仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中，结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。

Jun, 2024