通过在 SGD 轨迹上抽样多个点进行简单平均,Stochastic Weight Averaging(SWA)过程实现了比传统训练更好的泛化,SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高,而且 SWA 实现简单、无几乎不需要计算成本。
Mar, 2018
SWA-Gaussian 是一种用于深度学习中的不确定性表示和校准的简单、可伸缩和通用方法,它利用随机加权平均(Stochastic Weight Averaging,SWA)和高斯分布来进行贝叶斯模型平均,具有较好的拟合效果和性能。
Feb, 2019
本文介绍了一种名为 Hierarchical Weight Averaging (HWA) 的新的深度学习神经网络权重平均训练框架,通过整合在线和离线平均方法,它能够同时提高收敛速度和泛化性能,同时解决了现有 WA 方法面临的问题。实验证明,HWA 明显优于现有方法。
Apr, 2023
WASH 是一种新的分布式方法,用于训练模型集合以进行权重平均化,实现了最先进的图像分类准确性。
May, 2024
本研究研究了模型的鲁棒性,特别是在情绪分析任务上的鲁棒性,通过研究 ALBERT 与 SWA 的结合来分析 SWA 的稳定性,通过 CheckList 准则量化稳定性,发现 SWA 不仅可以降低错误率,还可以集成模型贯穿梯度下降轨迹的快照来提高稳定性。
Nov, 2021
本文提出了一种基于 Stochastic Weight Averaging 的优化方法,用于改善预训练语言模型在 NLP 任务中的泛化能力,而无需额外计算成本,并展示了其在不同模型架构和任务中的出色表现。
Dec, 2022
基于小数据集的精调大型语言模型常常存在过度自信和校准不佳的问题,为了解决这些挑战,我们提出了低秩自适应和高斯随机权重平均的简单结合,促进了大型语言模型中的近似贝叶斯推断。通过在多个自然语言处理基准测试中进行广泛测试,我们证明了我们简单而高效的方法能够提高模型的泛化能力和校准性。我们进一步展示了我们的方法在分布变化方面表现出更强的鲁棒性,这体现在其在未知分布任务上的表现。
本文介绍了一种新的权重平均策略 ——Diverse Weight Averaging (DiWA),通过多次独立训练获得的模型权重进行平均,以增加模型的功能多样性,并提出了一种新的误差分解方法来说明多模型平均在测试期间建模分布发生变化时成功的原因,并通过实验证明,DiWA 在不增加推理开销的情况下始终提高了 DomainBed 基准的表现。
May, 2022
研究了半监督学习中的一种基于一致性正则化的方法,提出使用随机权重平均和快速随机权重平均来加速模型的训练,达到了最先进的结果
Jun, 2018
使用随机权重平均的技术和循环学习率,我们在目标检测和实例分割中系统地研究了 SWA 的应用效果,并取得了对 COCO 基准的稳定提升。
Dec, 2020