Switch EMA:提供更好平缓度和锐度的免费午餐
该论文研究了指数移动平均 (EMA) 在深度学习优化中的应用,提出了一种改进的训练算法 BELAY,通过物理类比分析 EMA 的有效性,并在理论和实证上证明了 BELAY 相对于标准 EMA 的几个优点。
Oct, 2023
在存在模型 EMA 的优化中,我们提供了一个缩放规则,并证明其在各种架构、优化器和数据模态下的有效性,同时还展示了模型 EMA 对目标模型优化的贡献,使我们能够在小批量和大批量训练下使用 EMA 基于伪标记和自监督学习的方法,以最佳化 6 倍的壁钟时间降低的条件下训练 BYOL。
Jul, 2023
本文研究了在 GAN 训练中参数平均的两种不同技术:移动平均和指数移动平均。作者提供了 EMA 技术的第一篇理论支持,并通过对许多数据集的实证实验验证了 EMA 和 MA 技术的显著有效性。
Jun, 2018
理论分析表明,在各种非凸优化设置中,带有模型指数移动平均(EMA)的 Adam 算法的剪切版本能够实现最佳收敛速度,尤其当坐标间尺度差异显著时,Adam 算法的坐标自适应性具有明显优势。
May, 2024
该研究论文介绍了一种名为双教师的简单而有效的方法,利用双临时教师解决了学生和教师权重耦合的问题,通过定期生成伪标签训练学生模型并保持不同特征,以显著缩短训练时间,并证明了该方法适用于各种模型。
Oct, 2023
提出了一种新颖的领域泛化策略,采用梯度手术指数移动平均(GS-EMA)优化技术和边界感知对比学习(BACL)相结合的方法,在不同临床数据集中学习领域不变特征,从而改进动脉瘤的鲁棒性和准确性。结果显示,所提出的方法可以提取更多领域不变特征,最小化过度分割,并捕获更完整的动脉瘤结构。
Feb, 2024
本论文提出了一种取代批量归一化(BN)的技术,叫做指数移动平均归一化(EMAN),它通过从学生的 BN 统计数据中指数移动平均来更新教师的统计数,减少了 BN 的样本间依赖,提高了教师的泛化能力。这种技术可以在自监督学习和半监督学习的基础上分别提高 4-6/1-2 个点和约 7/2 个点,效果稳定,且适用于各种网络结构和数据集。
Jan, 2021
介绍了使用 Kaizen 框架的半监督语音识别方法,该方法利用一个不断更新的教师模型为 ASR 生成伪标签,可用于不同培训准则,对于大规模的真实世界无监督公共英语和意大利语视频表现出 10% 以上的相对词误率(WER)降低。
Jun, 2021
本研究提出了一种结合逆向和正向视角的新型 Admeta 优化器框架,该框架基于两种经典优化器 SGD 和 Adam,通过一种动态前瞻策略与指标替换算法,提高了神经网络的参数优化能力.
Jul, 2023
通过比较基于平坦极小点优化器的损失曲面和在计算机视觉、自然语言处理和图表示学习任务的广泛基准测试中,我们发现了一些令人惊讶的发现,希望这能帮助研究人员进一步改进深度学习优化器,并帮助实践者为其问题选择正确的优化器。
Feb, 2022