深度学习中贝叶斯不确定性的简单基准线

Feb, 2019

深度学习中贝叶斯不确定性的简单基准线

A Simple Baseline for Bayesian Uncertainty in Deep Learning

Wesley Maddox, Timur Garipov, Pavel Izmailov, Dmitry Vetrov, Andrew Gordon Wilson

TL;DRSWA-Gaussian 是一种用于深度学习中的不确定性表示和校准的简单、可伸缩和通用方法，它利用随机加权平均（Stochastic Weight Averaging，SWA）和高斯分布来进行贝叶斯模型平均，具有较好的拟合效果和性能。

Abstract

We propose swa-gaussian (SWAG), a simple, scalable, and general purpose approach for uncertainty representation and calibration in

uncertainty representation calibration deep learning swa-gaussian bayesian model averaging

发现论文，激发创造

大规模语言模型的贝叶斯低秩自适应的高斯随机权重平均化

基于小数据集的精调大型语言模型常常存在过度自信和校准不佳的问题，为了解决这些挑战，我们提出了低秩自适应和高斯随机权重平均的简单结合，促进了大型语言模型中的近似贝叶斯推断。通过在多个自然语言处理基准测试中进行广泛测试，我们证明了我们简单而高效的方法能够提高模型的泛化能力和校准性。我们进一步展示了我们的方法在分布变化方面表现出更强的鲁棒性，这体现在其在未知分布任务上的表现。

May, 2024

带有随机权重平均的不确定性感知自然语言推理

这篇论文介绍了在自然语言理解（NLU）任务中使用随机重量平均 - 高斯（SWAG）进行贝叶斯不确定性建模的方法，并将其应用于标准的自然语言推理（NLI）任务中，证明该方法以预测准确度和与人类注释不一致性相关性等方面的有效性。我们认为，SWAG 中的不确定性表示更好地反映了主观解释和人类语言理解中存在的自然变化。结果揭示了不确定性建模在 NLU 任务中的重要性，这是神经语言建模经常忽略的方面。

Apr, 2023

平均权重导致更宽的随机局部极小值和更好的泛化

通过在 SGD 轨迹上抽样多个点进行简单平均，Stochastic Weight Averaging（SWA）过程实现了比传统训练更好的泛化，SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高，而且 SWA 实现简单、无几乎不需要计算成本。

Mar, 2018

自适应随机加权平均

提出了自适应随机权重平均（ASWA）技术，该技术结合了随机权重平均（SWA）和提前停止技术，仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中，结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。

Jun, 2024

无标签数据有多种一致的解释：为什么您应该平均

研究了半监督学习中的一种基于一致性正则化的方法，提出使用随机权重平均和快速随机权重平均来加速模型的训练，达到了最先进的结果

Jun, 2018

SWALP ：低精度训练中的随机权重平均

SWALP 是一种低精度训练方法，可提高可扩展性，节省内存，提高可移植性和节能效果，在 8 位量化下，包括梯度累加器，在保持与完全精度 SGD 相匹配性能的同时，使用修改的学习率计划平均低精度 SGD 迭代。此外，该方法还表现出良好的收敛性能，特别是在二次型目标上。

Apr, 2019

深度神经网络的分层加权平均

本文介绍了一种名为 Hierarchical Weight Averaging (HWA) 的新的深度学习神经网络权重平均训练框架，通过整合在线和离线平均方法，它能够同时提高收敛速度和泛化性能，同时解决了现有 WA 方法面临的问题。实验证明，HWA 明显优于现有方法。

Apr, 2023

使用引导权重的深度学习中的稀疏不确定性表示

本研究提出一种基于感知器的设计方案，该方案结合了贝叶斯神经网络和深度集成等现代方法，通过在每层的权重矩阵中加入少量的诱导权重来降低存储和计算成本，同时保持较好的预测精度和不确定性估计能力。

May, 2021

使用避免等待的群组平均法在并行随机优化中突破（全球）界限

本文提出了 Wait-Avoiding Group Model Averaging (WAGMA) SGD 算法，采用子集权重交换的方式减少全局通信，优化分布式深度学习中的性能问题，相较于其他分布式 SGD 算法具有更快的训练速度和更高的得分。

Apr, 2020

随机平均梯度：简单实证研究

我们比较了随机平均梯度 (SAG) 与一些经典机器学习优化算法，并提出了将 SAG 与动量算法和 Adam 相结合的方法，这些组合在优化函数时表现出更高的速度和更好的性能。

Jul, 2023