Feb, 2024

Switch EMA:提供更好平缓度和锐度的免费午餐

TL;DR利用一行修改将 EMA 参数切换到原始模型并揭示了 Switch EMA(SEMA)的充分潜力,该方法能够帮助深度神经网络在平坦性和尖锐性之间取得更好的泛化最优解,并通过基于视觉和语言数据集的比较实验证实了 SEMA 的有效性。