基于 Transformer 的自然语言处理模型微调鲁棒性研究

May, 2023

基于 Transformer 的自然语言处理模型微调鲁棒性研究

On Robustness of Finetuned Transformer-based NLP Models

Pavan Kalyan Reddy Neerudu, Subba Reddy Oota, Mounika Marreddy, Venkateswara Rao Kagita, Manish Gupta

TL;DR本文对三种基于 Transformer 的预训练语言模型（BERT、GPT-2 和 T5）进行了鲁棒性测试，并比较了它们在多种输入扰动下的性能表现。同时，使用 CKA 和 STIR 两个度量衡量了预训练模型与微调模型在各层上的表示变化。其中，GPT-2 表现出更好的鲁棒性。尽管这些模型都具有广泛的鲁棒性，但丢失名词、动词或改变字符是最具影响力的。这项研究为流行的基于 Transformer 的模型的扰动特异性弱点提供了宝贵的见解。

Abstract

Transformer-based pretrained models like BERT, GPT-2 and T5 have been finetuned for a large number of natural language processing (NLP) tasks, and have been shown to be very effective. However, while finetuning,

pretrained models natural language processing fine-tuning robustness input perturbation

发现论文，激发创造

BERT 和 GPT-2 神经网络架构迁移对金融情感分析的敏感性分析

本文研究了利用预训练模型进行微调时，模型的表现和参数的敏感性，通过实验发现 BERT 模型对于微调的随机性十分敏感，而 GPT-2 则更加稳定，同时也发现 GPT-2 和 BERT 的前几层包含了重要的单词模式信息需要进行保留。

Jul, 2022

评估神经语言模型对输入干扰的鲁棒性

我们研究了在现实世界中输入文本可能有噪音或不同于 NLP 系统训练数据分布的情景，通过各种类型的字符级和单词级扰动方法来模拟这种情况，发现语言模型对输入扰动非常敏感，即使引入了很小的变化，其性能也会下降，需要进一步改进模型并对扰动输入进行评估以更加真实地了解 NLP 系统的鲁棒性。

Aug, 2021

解读神经自然语言处理模型对文本扰动的鲁棒性

研究现代自然语言处理模型中对于不同的输入扰动如何表现更差，进而发现一个模型对于未知文本扰动的鲁棒性较低的原因是模型未很好地学习到如何识别这些扰动。

Oct, 2021

关于语言理解任务，GPT-3.5 对前身模型的鲁棒性有多强？一项全面研究

该研究全面评估了 GPT-3.5 在 21 个数据集上进行文本转换后的表现，发现其在某些任务上表现优异，但仍存在重大的鲁棒性降级，而且 GPT-3.5 面临着一些特定的鲁棒性挑战，这些发现对于了解其限制以及指导未来的研究具有重要价值。

Mar, 2023

BERT 与 GPT 在金融工程中的比较

该研究对多个 Transformer 模型进行基准测试，展示了这些模型如何从新闻事件中判断情感。这个信号随后可用于下游建模和商品交易的信号识别。我们发现，在这一任务中，微调的 BERT 模型优于微调或原版的 GPT 模型。研究还提出了 CopBERT 模型，它在域特定的 BERT 训练模型（如 FinBERT）的性能上表现更好。综上所述，BERT 模型可能不会成为下一个 XGboost，但对于需要融合可解释性和准确性的金融工程任务来说，它代表了一个有趣的选择。

Apr, 2024

基于 Transformer 的自然语言理解任务压力测试

本文通过对三种基于 Transformer 的模型（RoBERTa，XLNet 和 BERT）在自然语言推断（NLI）和问答（QA）任务中的评估研究，发现这些模型在脆弱性测试中表现比循环神经网络模型更鲁棒，但仍具有各种意外行为，展示了在这个领域仍有改进的空间

Feb, 2020

通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性

本文探讨了最新的预训练语言模型（PLMs），包括 GPT-3 和 BERT，存在安全漏洞，使其容易受到对抗性攻击的影响，并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。

Sep, 2022

多集合免疫接种：跨多个挑战集评估模型的稳健性

探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法，通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。

Nov, 2023

深度学习文本分类算法对实际输入扰动的敏感性研究

本文研究基于深度学习的文本分类模型（CNN、LSTM 和 BERT）在面对有意义但与最终性能无关的输入扰动（如标点符号和停用词）时的表现，发现包括 BERT 在内的这类模型都很敏感，特别是对于输入扰动的删除尤其受影响。

Jan, 2022

关于 BERT 微调的稳定性：误区、解释和强基准线

通过分析 BERT、RoBERTa 和 ALBERT 在 GLUE 基准测试集上的表现，本文表明，Fine-tuning 不稳定是由于优化困难导致梯度消失，我们提出了一个简单但强大的基线方法，使 BERT-based 模型的 fine-tuning 显著更稳定。

Jun, 2020