深度神经网络的分层加权平均
通过在 SGD 轨迹上抽样多个点进行简单平均,Stochastic Weight Averaging(SWA)过程实现了比传统训练更好的泛化,SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高,而且 SWA 实现简单、无几乎不需要计算成本。
Mar, 2018
本文介绍了一种新的权重平均策略 ——Diverse Weight Averaging (DiWA),通过多次独立训练获得的模型权重进行平均,以增加模型的功能多样性,并提出了一种新的误差分解方法来说明多模型平均在测试期间建模分布发生变化时成功的原因,并通过实验证明,DiWA 在不增加推理开销的情况下始终提高了 DomainBed 基准的表现。
May, 2022
我们研究了在时间受限环境下的分布式深度学习模型训练,提出了一种新算法,通过按照工作节点的梯度范数的倒数进行加权平均来推动工作节点接近计算得出的中心变量,以优先恢复优化景观中的平坦区域。我们开发了两种异步变体的算法,分别称为模型级梯度加权平均算法(MGRAWA)和层级梯度加权平均算法(LGRAWA),其不同之处在于加权方案是针对整个模型还是逐层应用。在理论方面,我们证明了该方法在凸性和非凸性设置下的收敛保证。然后,我们通过实验证明,我们的算法通过实现更快的收敛速度和恢复更好的质量和平坦的局部最优解而优于竞争方法。我们还进行了一项剔除研究,以分析该算法在更拥挤的分布式训练环境中的可扩展性。最后,我们报告说,与现有基线方法相比,我们的方法需要较少的通信频率和分布式更新。
Mar, 2024
提出了自适应随机权重平均(ASWA)技术,该技术结合了随机权重平均(SWA)和提前停止技术,仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中,结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。
Jun, 2024
本文提出了 Wait-Avoiding Group Model Averaging (WAGMA) SGD 算法,采用子集权重交换的方式减少全局通信,优化分布式深度学习中的性能问题,相较于其他分布式 SGD 算法具有更快的训练速度和更高的得分。
Apr, 2020
为了减少大规模机器学习应用中分布式平台训练过程中的通信成本,我们提出了一种分布式层次平均随机梯度下降(Hier-AVG)算法,该算法采用局部平均,通过引入不频繁的全局平均来实现。实验结果表明,与其他算法相比,采用 Hier-AVG 可以实现更快的训练结果,而仍能达到更好的测试精度。
Mar, 2019
通过 ACOWA 技术,在分布式训练中,通过额外的通信轮次获得更准确的近似解,相较于其他分布式算法,对于稀疏分布式逻辑回归,ACOWA 获得更接近经验风险最小化的解并实现更高的准确性。
Jun, 2024
SWA-Gaussian 是一种用于深度学习中的不确定性表示和校准的简单、可伸缩和通用方法,它利用随机加权平均(Stochastic Weight Averaging,SWA)和高斯分布来进行贝叶斯模型平均,具有较好的拟合效果和性能。
Feb, 2019
机器学习中的在线学习方法 OLR-WA,通过结合新旧数据建立模型来解决数据量庞大和数据变化的问题,并通过用户定义的权重来实现对结果的偏好。与静态模型相比,OLR-WA 在一致数据上表现相似,在变化数据上,则可根据用户需求调整适应速度或抵抗变化。
Jul, 2023