通过在 SGD 轨迹上抽样多个点进行简单平均,Stochastic Weight Averaging(SWA)过程实现了比传统训练更好的泛化,SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高,而且 SWA 实现简单、无几乎不需要计算成本。
Mar, 2018
本文介绍了一种名为 Hierarchical Weight Averaging (HWA) 的新的深度学习神经网络权重平均训练框架,通过整合在线和离线平均方法,它能够同时提高收敛速度和泛化性能,同时解决了现有 WA 方法面临的问题。实验证明,HWA 明显优于现有方法。
Apr, 2023
本文介绍了一种新的权重平均策略 ——Diverse Weight Averaging (DiWA),通过多次独立训练获得的模型权重进行平均,以增加模型的功能多样性,并提出了一种新的误差分解方法来说明多模型平均在测试期间建模分布发生变化时成功的原因,并通过实验证明,DiWA 在不增加推理开销的情况下始终提高了 DomainBed 基准的表现。
May, 2022
提出了自适应随机权重平均(ASWA)技术,该技术结合了随机权重平均(SWA)和提前停止技术,仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中,结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。
Jun, 2024
通过结合 Lookahead 优化器和锐度感知最小化技术,使用 Lookbehind 方法对深度神经网络进行训练,实现更好的稳定性和损失锐度的权衡,以提高泛化性能、鲁棒性和遗忘容忍度。
Jul, 2023
该论文提出了一种新的优化算法 Lookahead,针对目前普遍使用的 SGD 和 Adam 优化算法进行了改进,能够提高学习的稳定性和性能表现。
Jul, 2019
WASH 是一种新的分布式方法,用于训练模型集合以进行权重平均化,实现了最先进的图像分类准确性。
May, 2024
本文提出了 Wait-Avoiding Group Model Averaging (WAGMA) SGD 算法,采用子集权重交换的方式减少全局通信,优化分布式深度学习中的性能问题,相较于其他分布式 SGD 算法具有更快的训练速度和更高的得分。
Apr, 2020
通过 ACOWA 技术,在分布式训练中,通过额外的通信轮次获得更准确的近似解,相较于其他分布式算法,对于稀疏分布式逻辑回归,ACOWA 获得更接近经验风险最小化的解并实现更高的准确性。
通过引入称为 Lookahead 的训练策略,结合了大学习率和权重插值的方法,提高了模型在域泛化中的泛化能力,并且在分类和语义分割域泛化基准上取得了最先进的性能。
Sep, 2023