Switch EMA：提供更好平缓度和锐度的免费午餐

Feb, 2024

Switch EMA：提供更好平缓度和锐度的免费午餐

Switch EMA: A Free Lunch for Better Flatness and Sharpness

Siyuan Li, Zicheng Liu, Juanxi Tian, Ge Wang, Zedong Wang...

TL;DR利用一行修改将 EMA 参数切换到原始模型并揭示了 Switch EMA（SEMA）的充分潜力，该方法能够帮助深度神经网络在平坦性和尖锐性之间取得更好的泛化最优解，并通过基于视觉和语言数据集的比较实验证实了 SEMA 的有效性。

Abstract

exponential moving average (EMA) is a widely used weight averaging (WA) regularization to learn flat optima for better generalizations without extra cost in →

exponential moving average weight averaging deep neural network generalization optima sema

发现论文，激发创造

指数权重平均作为阻尼谐振

该论文研究了指数移动平均 (EMA) 在深度学习优化中的应用，提出了一种改进的训练算法 BELAY，通过物理类比分析 EMA 的有效性，并在理论和实证上证明了 BELAY 相对于标准 EMA 的几个优点。

Oct, 2023

如何扩展您的 EMA

在存在模型 EMA 的优化中，我们提供了一个缩放规则，并证明其在各种架构、优化器和数据模态下的有效性，同时还展示了模型 EMA 对目标模型优化的贡献，使我们能够在小批量和大批量训练下使用 EMA 基于伪标记和自监督学习的方法，以最佳化 6 倍的壁钟时间降低的条件下训练 BYOL。

Jul, 2023

GAN 训练中平均化的非凡有效性

本文研究了在 GAN 训练中参数平均的两种不同技术：移动平均和指数移动平均。作者提供了 EMA 技术的第一篇理论支持，并通过对许多数据集的实证实验验证了 EMA 和 MA 技术的显著有效性。

Jun, 2018

使用模型指数移动平均的 Adam 算法在非凸优化中的效果

理论分析表明，在各种非凸优化设置中，带有模型指数移动平均（EMA）的 Adam 算法的剪切版本能够实现最佳收敛速度，尤其当坐标间尺度差异显著时，Adam 算法的坐标自适应性具有明显优势。

May, 2024

临时教师切换半监督语义分割

该研究论文介绍了一种名为双教师的简单而有效的方法，利用双临时教师解决了学生和教师权重耦合的问题，通过定期生成伪标签训练学生模型并保持不同特征，以显著缩短训练时间，并证明了该方法适用于各种模型。

Oct, 2023

GS-EMA: 融合梯度修剪指数移动平均与边界感知对比学习，用于增强动静脉瘤分割的域生成能力

提出了一种新颖的领域泛化策略，采用梯度手术指数移动平均（GS-EMA）优化技术和边界感知对比学习（BACL）相结合的方法，在不同临床数据集中学习领域不变特征，从而改进动脉瘤的鲁棒性和准确性。结果显示，所提出的方法可以提取更多领域不变特征，最小化过度分割，并捕获更完整的动脉瘤结构。

Feb, 2024

自监督和半监督学习的指数移动平均归一化

本论文提出了一种取代批量归一化（BN）的技术，叫做指数移动平均归一化（EMAN），它通过从学生的 BN 统计数据中指数移动平均来更新教师的统计数，减少了 BN 的样本间依赖，提高了教师的泛化能力。这种技术可以在自监督学习和半监督学习的基础上分别提高 4-6/1-2 个点和约 7/2 个点，效果稳定，且适用于各种网络结构和数据集。

Jan, 2021

Kaizen: 利用指数移动平均法不断提升教师的半监督语音识别技能

介绍了使用 Kaizen 框架的半监督语音识别方法，该方法利用一个不断更新的教师模型为 ASR 生成伪标签，可用于不同培训准则，对于大规模的真实世界无监督公共英语和意大利语视频表现出 10% 以上的相对词误率（WER）降低。

Jun, 2021

一种新型双指数移动平均双向查找的自适应和非自适应动量优化器

本研究提出了一种结合逆向和正向视角的新型 Admeta 优化器框架，该框架基于两种经典优化器 SGD 和 Adam，通过一种动态前瞻策略与指标替换算法，提高了神经网络的参数优化能力.

Jul, 2023

平坦极小值优化器何时有效？

通过比较基于平坦极小点优化器的损失曲面和在计算机视觉、自然语言处理和图表示学习任务的广泛基准测试中，我们发现了一些令人惊讶的发现，希望这能帮助研究人员进一步改进深度学习优化器，并帮助实践者为其问题选择正确的优化器。

Feb, 2022