深度学习中贝叶斯不确定性的简单基准线
基于小数据集的精调大型语言模型常常存在过度自信和校准不佳的问题,为了解决这些挑战,我们提出了低秩自适应和高斯随机权重平均的简单结合,促进了大型语言模型中的近似贝叶斯推断。通过在多个自然语言处理基准测试中进行广泛测试,我们证明了我们简单而高效的方法能够提高模型的泛化能力和校准性。我们进一步展示了我们的方法在分布变化方面表现出更强的鲁棒性,这体现在其在未知分布任务上的表现。
May, 2024
这篇论文介绍了在自然语言理解(NLU)任务中使用随机重量平均 - 高斯(SWAG)进行贝叶斯不确定性建模的方法,并将其应用于标准的自然语言推理(NLI)任务中,证明该方法以预测准确度和与人类注释不一致性相关性等方面的有效性。我们认为,SWAG 中的不确定性表示更好地反映了主观解释和人类语言理解中存在的自然变化。结果揭示了不确定性建模在 NLU 任务中的重要性,这是神经语言建模经常忽略的方面。
Apr, 2023
通过在 SGD 轨迹上抽样多个点进行简单平均,Stochastic Weight Averaging(SWA)过程实现了比传统训练更好的泛化,SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高,而且 SWA 实现简单、无几乎不需要计算成本。
Mar, 2018
提出了自适应随机权重平均(ASWA)技术,该技术结合了随机权重平均(SWA)和提前停止技术,仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中,结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。
Jun, 2024
SWALP 是一种低精度训练方法,可提高可扩展性,节省内存,提高可移植性和节能效果,在 8 位量化下,包括梯度累加器,在保持与完全精度 SGD 相匹配性能的同时,使用修改的学习率计划平均低精度 SGD 迭代。此外,该方法还表现出良好的收敛性能,特别是在二次型目标上。
Apr, 2019
本文介绍了一种名为 Hierarchical Weight Averaging (HWA) 的新的深度学习神经网络权重平均训练框架,通过整合在线和离线平均方法,它能够同时提高收敛速度和泛化性能,同时解决了现有 WA 方法面临的问题。实验证明,HWA 明显优于现有方法。
Apr, 2023
本研究提出一种基于感知器的设计方案,该方案结合了贝叶斯神经网络和深度集成等现代方法,通过在每层的权重矩阵中加入少量的诱导权重来降低存储和计算成本,同时保持较好的预测精度和不确定性估计能力。
May, 2021
本文提出了 Wait-Avoiding Group Model Averaging (WAGMA) SGD 算法,采用子集权重交换的方式减少全局通信,优化分布式深度学习中的性能问题,相较于其他分布式 SGD 算法具有更快的训练速度和更高的得分。
Apr, 2020
我们比较了随机平均梯度 (SAG) 与一些经典机器学习优化算法,并提出了将 SAG 与动量算法和 Adam 相结合的方法,这些组合在优化函数时表现出更高的速度和更好的性能。
Jul, 2023