大规模语言模型的贝叶斯低秩自适应的高斯随机权重平均化

May, 2024

大规模语言模型的贝叶斯低秩自适应的高斯随机权重平均化

Gaussian Stochastic Weight Averaging for Bayesian Low-Rank Adaptation of Large Language Models

Emre Onal, Klemens Flöge, Emma Caldwell, Arsen Sheverdin, Vincent Fortuin

TL;DR基于小数据集的精调大型语言模型常常存在过度自信和校准不佳的问题，为了解决这些挑战，我们提出了低秩自适应和高斯随机权重平均的简单结合，促进了大型语言模型中的近似贝叶斯推断。通过在多个自然语言处理基准测试中进行广泛测试，我们证明了我们简单而高效的方法能够提高模型的泛化能力和校准性。我们进一步展示了我们的方法在分布变化方面表现出更强的鲁棒性，这体现在其在未知分布任务上的表现。

Abstract

Fine-tuned large language models (LLMs) often suffer from overconfidence and poor calibration, particularly when fine-tuned on small datas

large language models overconfidence calibration low-rank adaptation approximate bayesian inference

发现论文，激发创造

带有随机权重平均的不确定性感知自然语言推理

这篇论文介绍了在自然语言理解（NLU）任务中使用随机重量平均 - 高斯（SWAG）进行贝叶斯不确定性建模的方法，并将其应用于标准的自然语言推理（NLI）任务中，证明该方法以预测准确度和与人类注释不一致性相关性等方面的有效性。我们认为，SWAG 中的不确定性表示更好地反映了主观解释和人类语言理解中存在的自然变化。结果揭示了不确定性建模在 NLU 任务中的重要性，这是神经语言建模经常忽略的方面。

Apr, 2023

深度学习中贝叶斯不确定性的简单基准线

SWA-Gaussian 是一种用于深度学习中的不确定性表示和校准的简单、可伸缩和通用方法，它利用随机加权平均（Stochastic Weight Averaging，SWA）和高斯分布来进行贝叶斯模型平均，具有较好的拟合效果和性能。

Feb, 2019

大语言模型的贝叶斯低秩适应

使用 Laplace-LoRA 方法，对参数高效微调的大型语言模型进行贝叶斯方法，提高模型的校准性。

Aug, 2023

自适应随机加权平均

提出了自适应随机权重平均（ASWA）技术，该技术结合了随机权重平均（SWA）和提前停止技术，仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中，结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。

Jun, 2024

个性化协作微调用于设备上的大型语言模型

在设备上进行自我监督的合作微调大规模语言模型的研究，使用三种不同的信任加权梯度集成方案，并与 FedAvg 和本地微调方法相比，使用少量的数据交换和 LoRA 权重更新，显示出在本地数据分布不均的现实场景中处理异质性和稀缺性方面的有效性。

Apr, 2024

通过随机权重平均改进预训练语言模型的泛化能力

本文提出了一种基于 Stochastic Weight Averaging 的优化方法，用于改善预训练语言模型在 NLP 任务中的泛化能力，而无需额外计算成本，并展示了其在不同模型架构和任务中的出色表现。

Dec, 2022

平均权重导致更宽的随机局部极小值和更好的泛化

通过在 SGD 轨迹上抽样多个点进行简单平均，Stochastic Weight Averaging（SWA）过程实现了比传统训练更好的泛化，SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高，而且 SWA 实现简单、无几乎不需要计算成本。

Mar, 2018

SWALP ：低精度训练中的随机权重平均

SWALP 是一种低精度训练方法，可提高可扩展性，节省内存，提高可移植性和节能效果，在 8 位量化下，包括梯度累加器，在保持与完全精度 SGD 相匹配性能的同时，使用修改的学习率计划平均低精度 SGD 迭代。此外，该方法还表现出良好的收敛性能，特别是在二次型目标上。

Apr, 2019

无标签数据有多种一致的解释：为什么您应该平均

研究了半监督学习中的一种基于一致性正则化的方法，提出使用随机权重平均和快速随机权重平均来加速模型的训练，达到了最先进的结果

Jun, 2018

用于语言建模的可伸缩循环神经网络贝叶斯学习

本文提出了基于贝叶斯学习的算法，通过引入随机梯度 Markov Chain Monte Carlo 的思想对 RNN 模型进行权重不确定性学习，从而提高模型在各个任务上的表现。

Nov, 2016