抵御文本对抗攻击的快速对抗训练

Jan, 2024

抵御文本对抗攻击的快速对抗训练

Fast Adversarial Training against Textual Adversarial Attacks

Yichen Yang, Xin Liu, Kun He

TL;DR通过在嵌入空间进行单步扰动生成和扰动初始化的研究，我们提出了一种快速对抗训练（FAT）方法，以改善模型在无同义词感知情况下的鲁棒性，实验证明 FAT 显著提高了 BERT 模型在各种攻击下的鲁棒性。

Abstract

Many adversarial defense methods have been proposed to enhance the adversarial robustness of natural language processing models. However, most of them introduce additional pre-set linguistic knowledge and assume that the synonym candidates used by attackers are accessible, which is an

adversarial defense methods adversarial training embedding space model robustness bert models

发现论文，激发创造

∞范数的健壮性与更多因素：高效对抗训练技术的实现

本篇论文阐述了对于神经网络存在攻击的情况下，如何通过对抗训练和小样本训练方法，提高模型的鲁棒性。

Dec, 2021

针对基于同义词替换的文本攻击的快速梯度投影方法中的对抗训练

本文提出了一种快速文本对抗攻击方法，称为基于同义词替换的快速梯度投影方法（FGPM），并将其与对抗性训练相结合，提出了一种文本防御方法，称为增强型 Logit 配对的对抗性训练（ATFL），实验证明，ATFL 可以显著提高模型的稳健性并阻止对抗性示例的可转移性。

Aug, 2020

利用先验引导知识改进快速对抗训练

本文提出了一种名为 FGSM-PGK 的方法，它使用先前的训练过程中高质量的对抗扰动来生成正样本引导的对抗初始化以及使用不同的衰减率平均不同模型权重的先验引导的集成快速对抗训练方法以提高对抗性能，从而解决了 catastrophic overfitting 问题。

Apr, 2023

不致死的攻击使对抗学习更强大

本研究提出了友好对抗训练 (FAT) 的新方法，其中通过提前停止最严格的对抗数据搜索算法，即早停止的 PGD，来最小化损失并利用自信的对抗数据更新当前模型，理论上可以通过对抗风险的上限来证明，实验证明不需要以自然泛化为代价也可以实现对抗强度。

Feb, 2020

通过预测和解释来提高模型的稳健性的对抗训练

本文提出了一种名为 FLAT 的特征级对抗性训练方法，该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致，从而提高模型对预测和解释方面的鲁棒性。

Mar, 2022

抗击单词级对抗性攻击的文本嵌入

本研究提出了一种新的鲁棒训练方法，即 Fast Triplet Metric Learning (FTML)，通过采用三元组度量学习来让相似的样本在嵌入空间中的表示更接近，并与其敌对样本有类似的表示，从而提高自然语言处理模型在对抗攻击下的鲁棒性。实验证明，该方法不仅有效地提高了模型的鲁棒性，而且效率高，可在标准训练中引入很少的开销，具有很大的潜力来提高文本的鲁棒性。

Feb, 2022

利用先验信息引导的对抗性初始化进行快速对抗训练

本文针对快速对抗训练 (FAT) 出现的过拟合现象进行了研究，提出了一种基于先验引导的快速梯度符号方法 (FGSM) 初始化策略和正则化方法，有效预防了过拟合，提高了对抗训练的效率。实验结果表明该方法优于现有的同类方法。

Jul, 2022

探究快速对抗性训练

本文通过实验研究快速对抗训练的行为并显示其成功的关键在于从过度拟合弱攻击中恢复。我们进一步扩展了这一发现以改善快速对抗训练，展示了与强对抗训练相比更优异的鲁棒性准确性以及更短的训练时间。

Jun, 2020

用最小扰动生成文本对抗样本

本文提出了一种新的对抗攻击策略，旨在找到与原始文本相似度极高的对抗文本，同时引入最小扰动；实验结果表明，与现有攻击方法相比，我们的方法在四个基准数据集上的成功率更高，扰动率更低。

Nov, 2022

联邦对抗训练

本文介绍一种联邦对抗训练（FAT）方法，结合联邦学习和对抗训练，以降低诈骗攻击风险并在训练期间保护数据隐私，研究了对于 MNIST、Fashion-MNIST 和 CIFAR10 这几种理想的联邦学习数据集，以及在 LEAF 基准数据集上的理想设置下对于集群客户对于模型的会耗时的这种自然扩展，探讨挑战和未能在 Trimmed Mean 和 Bulyan 防御上取得的成果，但使用一种新型的蒸馏攻击，成功破解了 Krum，为防御者呈现了似乎 “强大” 的模型，实际上该模型对于简单攻击的修改并不提供鲁棒性。

Dec, 2020