MPAT: 构建抵抗文本对抗攻击的鲁棒深度神经网络

Feb, 2024

MPAT: 构建抵抗文本对抗攻击的鲁棒深度神经网络

MPAT: Building Robust Deep Neural Networks against Textual Adversarial Attacks

Fangyuan Zhang, Huichi Zhou, Shuangjiao Li, Hongtao Wang

TL;DR本文提出了一种基于恶意扰动的恶意对抗训练方法 (MPAT)，用于构建对文本对抗攻击具有鲁棒性的深度神经网络。该方法通过生成恶意样本来替代原始输入进行模型训练，并采用新的训练目标函数以实现在不降低原始任务性能的情况下达到防御目标。实验结果表明，相比于先前的防御方法，我们的方法在对抗恶意攻击时更加有效，同时保持或进一步提高原始任务的性能。

Abstract

deep neural networks have been proven to be vulnerable to adversarial examples and various methods have been proposed to defend against adversarial attacks for natural language processing tasks. However, previous defense methods have limitations in maintaining effective defense while e

deep neural networks adversarial examples defending malicious perturbation adversarial training

发现论文，激发创造

通过扰动修复对抗性文本

提出了一种通过多种敌对扰动方法修复文本，使神经网络能够正确分类的方法，经实验证明，该方法可对约 80％的文本进行修复，并且取决于使用的扰动方法，平均修复一条文本的时间仅需一秒。

Dec, 2021

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

文本中健壮的深度神经网络：一项调查

本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查，并基于干扰单位对现有的对抗技术进行分类，从不同的自然语言处理任务的视角介绍了对抗技术，并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。

Feb, 2019

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

保留标签的短语级文本对抗攻击

本论文提出了一个名为 PLAT 的短语级文本对抗攻击方法，通过短语级扰动来生成对抗性样本，并结合上下文化生成方式来保持文本流畅性和句法通顺性。同时，作者还开发了一个基于类别似然的标签保持过滤器，来排除潜在导致文本分类错误的扰动。实验证明，PLAT 不仅有着比强基线更优越的攻击效果，同时还具有更好的标签一致性。

May, 2022

用最小扰动生成文本对抗样本

本文提出了一种新的对抗攻击策略，旨在找到与原始文本相似度极高的对抗文本，同时引入最小扰动；实验结果表明，与现有攻击方法相比，我们的方法在四个基准数据集上的成功率更高，扰动率更低。

Nov, 2022

深度文本分类存在欺诈性

本文介绍了一种有效的方法来生成文本对抗样本，证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本，可以识别用于分类的文本信息，基于这些信息，设计了三种扰动策略（插入、修改、删除）来生成对抗样本。实验表明，基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器，并且可以扰动到任意的分类类别而不影响其实用性，同时所引入的扰动难以被发现。

Apr, 2017

学习攻击：朝着在现实场景中的文本对抗攻击

该研究旨在阐述在自然语言处理领域，利用强化学习的攻击模型可以从历史攻击中学习，更高效地发起攻击，并对多项任务进行对比，实验证明其在攻击性和效率方面均优于其他基线方法。

Sep, 2020

基于突变的神经文本检测器对抗攻击

本论文提出了基于字符和词语的变异操作方法，用于生成对抗样本以攻击最先进的自然文本检测器，从而逐渐减少机器学习模型和分类器的预测准确性。

Feb, 2023

适应性扰动模式：用于强健入侵检测的逼真对抗学习

该论文介绍了一种基于自适应扰动模式的方法，用于在灰盒情况下生成具有真实性的对抗样本，通过对企业和物联网网络进行案例研究，证明了该方法提供了可扩展的对抗样本生成技术，并在对抗训练和攻击中具有优势。

Mar, 2022