噪声稳定正则化提高 BERT 微调

Jul, 2021

Noise Stability Regularization for Improving BERT Fine-tuning

Hang Hua, Xingjian Li, Dejing Dou, Cheng-Zhong Xu, Jiebo Luo

TL;DR本文提出了一种新颖有效的正则化方法，称为分层噪声稳定性正则化 (LNSR)，其可改善在自然语言处理任务中的 fine-tuning。通过实验证明，使用 LNSR 的 fine-tuning 展现出明显的泛化和稳定性优势，并且我们的方法也显示出优于其他现有算法的优势。

Abstract

fine-tuning pre-trained language models such as bert has become a common practice dominating leaderboards across various →

fine-tuning pre-trained language models noise stability regularization bert nlp tasks

发现论文，激发创造

使用噪声稳定正则化微调预训练语言模型

本文提出了一种名为 LNSR 的 fine-tuning 框架，通过注入高斯噪声或浸入式噪声，对 fine-tuned 模型的隐藏表示进行规范化，以解决预训练语言模型的过拟合问题，并证明其在 question answering task 方面具有优越性。

Jun, 2022

噪声注入节点正则化用于鲁棒学习

本文介绍了一种称为噪声注入节点正则化（NINR）的方法，可在深度神经网络（DNN）的训练阶段注入结构化噪声，从而产生紧急的规范化效果，该方法在各种测试数据扰动下可以显著提高 DNN 的稳健性，并且还可以容易地用于许多标准问题说明，特别是针对无结构噪声的情况，其效果优于现有的其他方法（如 Dropout 或 $L_2$ 正则化）。

Oct, 2022

神经网络微调的改进正则化和鲁棒性

通过 fine-tuning 算法的正则化与 self-labeling 方法相互插值，从而提高在小数据集下的图像与文本分类表现。

Nov, 2021

关于 BERT 微调的稳定性：误区、解释和强基准线

通过分析 BERT、RoBERTa 和 ALBERT 在 GLUE 基准测试集上的表现，本文表明，Fine-tuning 不稳定是由于优化困难导致梯度消失，我们提出了一个简单但强大的基线方法，使 BERT-based 模型的 fine-tuning 显著更稳定。

Jun, 2020

为生物医学自然语言处理调整大型神经语言模型

本文系统研究了微生物 NLP 中 fine-tuning 的稳定性，提出了一系列技术来解决这个问题，并通过领域特定词汇和预训练来建立更健壮的模型。

Dec, 2021

SymNoise：使用对称噪声提升语言模型微调技术

该研究介绍了一种新颖的语言模型微调技术，通过在嵌入过程中引入对称噪声，以更严格地调节局部曲率，提升模型的性能。通过使用对称噪声嵌入，该方法在 Alpaca 数据集上将 LLaMA-2-7B 模型的得分从 29.79% 显著提高到 69.04%，相比 NEFTune 方法（64.69%），有了 6.7% 的改进。此外，SymNoise 方法在多个模型和更强基线指令数据集上的表现均优于 NEFTune。该研究还强调了基于噪声策略进行语言模型微调的更深入研究的重要性。SymNoise 方法是朝着这个方向迈出的又一重要步骤，并且相对于现有的最先进方法有显著的改进。

Dec, 2023

嘈杂循环神经网络

研究透过向隐含状态注入噪音训练的递归神经网络，已证实该方法可提升其稳定性及鲁棒性。

Feb, 2021

PTP：基于扰动正则化的 Prompt Tuning 提升稳定性和性能

研究表明，在自然语言理解任务中，prompt tuning 相比下游微调能更好地利用大型语言模型的优势，但是现有的 prompt tuning 方法在训练时存在不稳定性问题。本文提出了基于扰动的正则化方法，将其应用到 prompt tuning 中，从而稳定训练并提高准确性。实验结果表明，本文提出的新方法在 SuperGLUE 和 FewGLUE 基准测试中分别比现有状态 - of-the-art 方法提高了 1.94％和 2.34％。

May, 2023

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

微调预训练模型的稳定性分析

通过理论稳定性分析和提出的新策略，解决预训练模型微调在同样设置下性能稳定性差异问题。

Jan, 2023