噪声稳定正则化提高 BERT 微调
本文提出了一种名为 LNSR 的 fine-tuning 框架,通过注入高斯噪声或浸入式噪声,对 fine-tuned 模型的隐藏表示进行规范化,以解决预训练语言模型的过拟合问题,并证明其在 question answering task 方面具有优越性。
Jun, 2022
本文介绍了一种称为噪声注入节点正则化(NINR)的方法,可在深度神经网络(DNN)的训练阶段注入结构化噪声,从而产生紧急的规范化效果,该方法在各种测试数据扰动下可以显著提高 DNN 的稳健性,并且还可以容易地用于许多标准问题说明,特别是针对无结构噪声的情况,其效果优于现有的其他方法(如 Dropout 或 $L_2$ 正则化)。
Oct, 2022
通过分析 BERT、RoBERTa 和 ALBERT 在 GLUE 基准测试集上的表现,本文表明,Fine-tuning 不稳定是由于优化困难导致梯度消失,我们提出了一个简单但强大的基线方法,使 BERT-based 模型的 fine-tuning 显著更稳定。
Jun, 2020
本文系统研究了微生物 NLP 中 fine-tuning 的稳定性,提出了一系列技术来解决这个问题,并通过领域特定词汇和预训练来建立更健壮的模型。
Dec, 2021
该研究介绍了一种新颖的语言模型微调技术,通过在嵌入过程中引入对称噪声,以更严格地调节局部曲率,提升模型的性能。通过使用对称噪声嵌入,该方法在 Alpaca 数据集上将 LLaMA-2-7B 模型的得分从 29.79% 显著提高到 69.04%,相比 NEFTune 方法(64.69%),有了 6.7% 的改进。此外,SymNoise 方法在多个模型和更强基线指令数据集上的表现均优于 NEFTune。该研究还强调了基于噪声策略进行语言模型微调的更深入研究的重要性。SymNoise 方法是朝着这个方向迈出的又一重要步骤,并且相对于现有的最先进方法有显著的改进。
Dec, 2023
研究表明,在自然语言理解任务中,prompt tuning 相比下游微调能更好地利用大型语言模型的优势,但是现有的 prompt tuning 方法在训练时存在不稳定性问题。本文提出了基于扰动的正则化方法,将其应用到 prompt tuning 中,从而稳定训练并提高准确性。实验结果表明,本文提出的新方法在 SuperGLUE 和 FewGLUE 基准测试中分别比现有状态 - of-the-art 方法提高了 1.94%和 2.34%。
May, 2023
本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架,用于更加有效地对预训练语言模型进行微调,避免过拟合和知识遗忘,通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。
Nov, 2019