GRAWA：基于梯度的加权平均方法用于分布式训练深度学习模型

Mar, 2024

GRAWA：基于梯度的加权平均方法用于分布式训练深度学习模型

GRAWA: Gradient-based Weighted Averaging for Distributed Training of Deep Learning Models

Tolga Dimlioglu, Anna Choromanska

TL;DR我们研究了在时间受限环境下的分布式深度学习模型训练，提出了一种新算法，通过按照工作节点的梯度范数的倒数进行加权平均来推动工作节点接近计算得出的中心变量，以优先恢复优化景观中的平坦区域。我们开发了两种异步变体的算法，分别称为模型级梯度加权平均算法（MGRAWA）和层级梯度加权平均算法（LGRAWA），其不同之处在于加权方案是针对整个模型还是逐层应用。在理论方面，我们证明了该方法在凸性和非凸性设置下的收敛保证。然后，我们通过实验证明，我们的算法通过实现更快的收敛速度和恢复更好的质量和平坦的局部最优解而优于竞争方法。我们还进行了一项剔除研究，以分析该算法在更拥挤的分布式训练环境中的可扩展性。最后，我们报告说，与现有基线方法相比，我们的方法需要较少的通信频率和分布式更新。

Abstract

We study distributed training of deep learning models in time-constrained environments. We propose a new algorithm that periodically pulls workers towards the center variable computed as a weighted average of wor

distributed training deep learning models time-constrained environments gradient norms convergence guarantee

发现论文，激发创造

深度神经网络的分层加权平均

本文介绍了一种名为 Hierarchical Weight Averaging (HWA) 的新的深度学习神经网络权重平均训练框架，通过整合在线和离线平均方法，它能够同时提高收敛速度和泛化性能，同时解决了现有 WA 方法面临的问题。实验证明，HWA 明显优于现有方法。

Apr, 2023

平均权重导致更宽的随机局部极小值和更好的泛化

通过在 SGD 轨迹上抽样多个点进行简单平均，Stochastic Weight Averaging（SWA）过程实现了比传统训练更好的泛化，SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高，而且 SWA 实现简单、无几乎不需要计算成本。

Mar, 2018

使用避免等待的群组平均法在并行随机优化中突破（全球）界限

本文提出了 Wait-Avoiding Group Model Averaging (WAGMA) SGD 算法，采用子集权重交换的方式减少全局通信，优化分布式深度学习中的性能问题，相较于其他分布式 SGD 算法具有更快的训练速度和更高的得分。

Apr, 2020

优化最优加权平均：高效分布式稀疏分类

通过 ACOWA 技术，在分布式训练中，通过额外的通信轮次获得更准确的近似解，相较于其他分布式算法，对于稀疏分布式逻辑回归，ACOWA 获得更接近经验风险最小化的解并实现更高的准确性。

Jun, 2024

正则化对偶平均的扩展及其动态

通过提出广义正则化对偶平均（gRDA）算法，该算法首次推导了在线 l1 惩罚问题的渐近分布，并开发了在线稀疏线性回归和在线稀疏主成分分析的统计推断理论，以及进行了广泛的数值分析。

Sep, 2019

多元加权平均用于区分分布外泛化

本文介绍了一种新的权重平均策略 ——Diverse Weight Averaging (DiWA)，通过多次独立训练获得的模型权重进行平均，以增加模型的功能多样性，并提出了一种新的误差分解方法来说明多模型平均在测试期间建模分布发生变化时成功的原因，并通过实验证明，DiWA 在不增加推理开销的情况下始终提高了 DomainBed 基准的表现。

May, 2022

最优模型平均化：走向个性化协作学习

本文研究了加权模型平均对任意标量均值估计问题的影响，发现加权平均模型可以减少局部模型的期望平方误差，并量化了加权模型平均的（可能为负的）益处。这项研究正式确定了一种量化协作学习个性化价值的方法，并为未来多元参数估计和基于一系列假设的检验研究提供了框架。

Oct, 2021

个性化协作微调用于设备上的大型语言模型

在设备上进行自我监督的合作微调大规模语言模型的研究，使用三种不同的信任加权梯度集成方案，并与 FedAvg 和本地微调方法相比，使用少量的数据交换和 LoRA 权重更新，显示出在本地数据分布不均的现实场景中处理异质性和稀缺性方面的有效性。

Apr, 2024

大规模语言模型的贝叶斯低秩自适应的高斯随机权重平均化

基于小数据集的精调大型语言模型常常存在过度自信和校准不佳的问题，为了解决这些挑战，我们提出了低秩自适应和高斯随机权重平均的简单结合，促进了大型语言模型中的近似贝叶斯推断。通过在多个自然语言处理基准测试中进行广泛测试，我们证明了我们简单而高效的方法能够提高模型的泛化能力和校准性。我们进一步展示了我们的方法在分布变化方面表现出更强的鲁棒性，这体现在其在未知分布任务上的表现。

May, 2024

弹性平均随机梯度下降的深度学习

在通信约束之下的并行计算环境下研究深度学习的随机优化问题，提出了一种新的基于弹性力的算法，可以使本地变量更加波动以允许更多的探索，同时减少了本地工作者与主节点之间的通信，从而加快了训练速度和提高了效率

Dec, 2014