伪装即一切所需：评估和增强语言模型抵御伪装对抗攻击的鲁棒性

Feb, 2024

伪装即一切所需：评估和增强语言模型抵御伪装对抗攻击的鲁棒性

Camouflage is all you need: Evaluating and Enhancing Language Model Robustness Against Camouflage Adversarial Attacks

Álvaro Huertas-García, Alejandro Martín, Javier Huertas-Tato, David Camacho

TL;DR采用拟态数据集和动态修改数据的对抗训练方法可以提高 Transformer 模型在对抗性攻击下的鲁棒性，使性能下降最多为 5%。然而，模型的性能与鲁棒性之间存在一种权衡关系，进一步的研究仍然需要进行。

Abstract

adversarial attacks represent a substantial challenge in Natural Language Processing (NLP). This study undertakes a systematic exploration of this challenge in two distinct phases: vulnerability evaluation and resilience enhancement of →

adversarial attacks natural language processing transformer-based models offensive language detection misinformation detection

发现论文，激发创造

会话蕴含任务的对抗攻击与防御

在这项研究中，我们将对抗性攻击结果视为模型的一个新（未见过的）领域，并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务，其中多轮自然语言对话是前提，通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交换作为攻击方法，并实施了一些微调策略，并提出了嵌入扰动损失作为提高模型鲁棒性的方法。最后，通过讨论自然语言处理中现实世界的对抗攻击，展示了我们工作的重要性。

May, 2024

测试时间调整强化语言模型

大规模语言模型在很多语言任务上取得了最先进的性能。然而，它们在针对对抗性语言示例时失败了，这些句子被精心优化以欺骗语言模型，但对人类来说具有类似的语义意义。我们的方法可以动态地适应输入句子并使用屏蔽词的预测结果，从而修复许多语言对抗攻击，而不需要任何训练。在两个流行的句子分类数据集上进行的可视化和实证结果表明，我们的方法能够修复超过 65% 的对抗性语言攻击。

Oct, 2023

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

SenTest: 句子编码器鲁棒性评估

通过对比学习方法评估句子编码器的鲁棒性，使用字符级、词级和句级攻击检验了模型的稳健性，结果显示模型在扰动数据集上的准确率可下降高达 15％，且当前的分类策略未能充分利用语义和句法结构信息。

Nov, 2023

基于 Transformer 的对抗攻击在安全领域中的有效性

评估了变压器对系统防御者的恶意样本的强健性以及对系统攻击者的对抗性样本的可迁移性，发现变压器所生成的对抗样本具有最高的可迁移率，对其他模型具有更强的对抗性，强调了研究在安全领域中使用变压器架构进行攻击和防御的重要性，并建议将其作为转移攻击设置中的主要架构。

Oct, 2023

多语言 NER 对抗性输入的鲁棒性评估

本文在多种语言中对命名实体识别 (Named Entity Recognition, NER) 进行了对抗性评估，并尝试使用对抗性数据集作为训练数据或微调数据以提高 NER 模型的性能。结果表明，这两种方法均可提高英语、德语和印地语的 NER 性能，但对于德语和印地语而言，重新训练的效果更好。

May, 2023

通过对抗训练来改善神经语言模型

使用对抗训练机制可以更好地规范神经语言模型中的过度拟合问题，增加嵌入向量的多样性并提高在机器翻译领域的性能。

Jun, 2019

利用可解释性设计对抗攻击并评估仇恨言论检测模型的攻击韧性

本研究综合并比较了各种仇恨言论检测模型的鲁棒性，并使用可解释性技术评估了这些模型对抗性攻击的鲁棒性，从而发现了一些潜在的漏洞和强项，并为创建更加鲁棒和可靠的检测系统打下了基础。

May, 2023

知识增强注意力用于稳健的自然语言推理

本文提出一种利用简单变换将外部知识纳入注意机制来使 NLI 模型更加稳健的方法，将其应用于 Transformer 编码器和可分解模型中，结果表明该方法可以显著提高它们的稳健性。并且，在与 BERT 预训练相结合时，在对抗 SNLI 数据集上实现了人类水平的性能。

Aug, 2019

构建强韧的神经机器翻译系统

本文提出采用对抗性稳定性训练来提高神经机器翻译 (NMT) 模型的鲁棒性，通过使编码器和解码器在输入和其扰动版本的情况下行为相似，进而提高模型的容错性。在汉英、英德和英法翻译任务中的实验结果表明，该方法不仅可以显著提高强 NMT 系统的翻译品质，而且可以增强 NMT 模型的鲁棒性。

May, 2018