深度神经网络的分层加权平均

Apr, 2023

Hierarchical Weight Averaging for Deep Neural Networks

Xiaozhe Gu, Zixun Zhang, Yuncheng Jiang, Tao Luo, Ruimao Zhang...

TL;DR本文介绍了一种名为 Hierarchical Weight Averaging (HWA) 的新的深度学习神经网络权重平均训练框架，通过整合在线和离线平均方法，它能够同时提高收敛速度和泛化性能，同时解决了现有 WA 方法面临的问题。实验证明，HWA 明显优于现有方法。

Abstract

Despite the simplicity, stochastic gradient descent (SGD)-like algorithms are successful in training deep neural networks (DNNs). Among various attempts to improve SGD, →

stochastic gradient descent deep neural networks weight averaging hierarchical weight averaging generalization performance

发现论文，激发创造

平均权重导致更宽的随机局部极小值和更好的泛化

通过在 SGD 轨迹上抽样多个点进行简单平均，Stochastic Weight Averaging（SWA）过程实现了比传统训练更好的泛化，SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高，而且 SWA 实现简单、无几乎不需要计算成本。

Mar, 2018

多元加权平均用于区分分布外泛化

本文介绍了一种新的权重平均策略 ——Diverse Weight Averaging (DiWA)，通过多次独立训练获得的模型权重进行平均，以增加模型的功能多样性，并提出了一种新的误差分解方法来说明多模型平均在测试期间建模分布发生变化时成功的原因，并通过实验证明，DiWA 在不增加推理开销的情况下始终提高了 DomainBed 基准的表现。

May, 2022

GRAWA：基于梯度的加权平均方法用于分布式训练深度学习模型

我们研究了在时间受限环境下的分布式深度学习模型训练，提出了一种新算法，通过按照工作节点的梯度范数的倒数进行加权平均来推动工作节点接近计算得出的中心变量，以优先恢复优化景观中的平坦区域。我们开发了两种异步变体的算法，分别称为模型级梯度加权平均算法（MGRAWA）和层级梯度加权平均算法（LGRAWA），其不同之处在于加权方案是针对整个模型还是逐层应用。在理论方面，我们证明了该方法在凸性和非凸性设置下的收敛保证。然后，我们通过实验证明，我们的算法通过实现更快的收敛速度和恢复更好的质量和平坦的局部最优解而优于竞争方法。我们还进行了一项剔除研究，以分析该算法在更拥挤的分布式训练环境中的可扩展性。最后，我们报告说，与现有基线方法相比，我们的方法需要较少的通信频率和分布式更新。

Mar, 2024

自适应随机加权平均

提出了自适应随机权重平均（ASWA）技术，该技术结合了随机权重平均（SWA）和提前停止技术，仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中，结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。

Jun, 2024

WASH：使用通信高效的权重重排，然后平均训练你的集成模型

WASH 是一种新的分布式方法，用于训练模型集合以进行权重平均化，实现了最先进的图像分类准确性。

May, 2024

使用避免等待的群组平均法在并行随机优化中突破（全球）界限

本文提出了 Wait-Avoiding Group Model Averaging (WAGMA) SGD 算法，采用子集权重交换的方式减少全局通信，优化分布式深度学习中的性能问题，相较于其他分布式 SGD 算法具有更快的训练速度和更高的得分。

Apr, 2020

分布式稀疏全局约简分层 SGD 算法

为了减少大规模机器学习应用中分布式平台训练过程中的通信成本，我们提出了一种分布式层次平均随机梯度下降（Hier-AVG）算法，该算法采用局部平均，通过引入不频繁的全局平均来实现。实验结果表明，与其他算法相比，采用 Hier-AVG 可以实现更快的训练结果，而仍能达到更好的测试精度。

Mar, 2019

优化最优加权平均：高效分布式稀疏分类

通过 ACOWA 技术，在分布式训练中，通过额外的通信轮次获得更准确的近似解，相较于其他分布式算法，对于稀疏分布式逻辑回归，ACOWA 获得更接近经验风险最小化的解并实现更高的准确性。

Jun, 2024

深度学习中贝叶斯不确定性的简单基准线

SWA-Gaussian 是一种用于深度学习中的不确定性表示和校准的简单、可伸缩和通用方法，它利用随机加权平均（Stochastic Weight Averaging，SWA）和高斯分布来进行贝叶斯模型平均，具有较好的拟合效果和性能。

Feb, 2019

OLR-WA 在线回归与加权平均

机器学习中的在线学习方法 OLR-WA，通过结合新旧数据建立模型来解决数据量庞大和数据变化的问题，并通过用户定义的权重来实现对结果的偏好。与静态模型相比，OLR-WA 在一致数据上表现相似，在变化数据上，则可根据用户需求调整适应速度或抵抗变化。

Jul, 2023