指数移动平均 vs 移动指数平均
该论文研究了指数移动平均 (EMA) 在深度学习优化中的应用,提出了一种改进的训练算法 BELAY,通过物理类比分析 EMA 的有效性,并在理论和实证上证明了 BELAY 相对于标准 EMA 的几个优点。
Oct, 2023
理论分析表明,在各种非凸优化设置中,带有模型指数移动平均(EMA)的 Adam 算法的剪切版本能够实现最佳收敛速度,尤其当坐标间尺度差异显著时,Adam 算法的坐标自适应性具有明显优势。
May, 2024
本文研究了在 GAN 训练中参数平均的两种不同技术:移动平均和指数移动平均。作者提供了 EMA 技术的第一篇理论支持,并通过对许多数据集的实证实验验证了 EMA 和 MA 技术的显著有效性。
Jun, 2018
提出了一种基于指数移动平均(EMA)的预测模型,并通过实验证明了其在预测准确性上的优势,尽管计算复杂度略微增加,但在任何实验条件下以比 EMA 显著更好的性能提供了可观的改进。
Dec, 2023
在存在模型 EMA 的优化中,我们提供了一个缩放规则,并证明其在各种架构、优化器和数据模态下的有效性,同时还展示了模型 EMA 对目标模型优化的贡献,使我们能够在小批量和大批量训练下使用 EMA 基于伪标记和自监督学习的方法,以最佳化 6 倍的壁钟时间降低的条件下训练 BYOL。
Jul, 2023
利用一行修改将 EMA 参数切换到原始模型并揭示了 Switch EMA(SEMA)的充分潜力,该方法能够帮助深度神经网络在平坦性和尖锐性之间取得更好的泛化最优解,并通过基于视觉和语言数据集的比较实验证实了 SEMA 的有效性。
Feb, 2024
本文提出了一种名为 FAME 的深度优化器,利用 Triple Exponential Moving Average 作为估算梯度矩的方法,相比于现有的优化方法,可以更准确和快速地识别梯度趋势,从而在多个领域中提高了性能表现。
Jun, 2023
本研究提出了一种结合逆向和正向视角的新型 Admeta 优化器框架,该框架基于两种经典优化器 SGD 和 Adam,通过一种动态前瞻策略与指标替换算法,提高了神经网络的参数优化能力.
Jul, 2023
本文提出了一种基于 Exponential Weighted Moving Average,使用随机特征进行 Maximum Mean Discrepancy 距离度量、实现高效率非参数在线变点检测的方法。
May, 2018
本论文提出了一种取代批量归一化(BN)的技术,叫做指数移动平均归一化(EMAN),它通过从学生的 BN 统计数据中指数移动平均来更新教师的统计数,减少了 BN 的样本间依赖,提高了教师的泛化能力。这种技术可以在自监督学习和半监督学习的基础上分别提高 4-6/1-2 个点和约 7/2 个点,效果稳定,且适用于各种网络结构和数据集。
Jan, 2021