通过随机化潜在表示欺骗文本欺骗者

Oct, 2023

通过随机化潜在表示欺骗文本欺骗者

Fooling the Textual Fooler via Randomizing Latent Representations

Duy C. Hoang, Quang H. Nguyen, Saurav Manchanda, MinLong Peng, Kok-Seng Wong...

TL;DR通过随机化输入的潜在表示，我们提出了一个名为 AdvFooler 的轻量级、适应各种攻击方法的防御机制，主要目标是困惑生成对抗样本的过程，从而达到误导对手的效果，并在两个基准数据集上证明近乎最先进的防御能力。

Abstract

Despite outstanding performance in a variety of nlp tasks, recent studies have revealed that nlp models are vulnerable to adversarial attacks

nlp adversarial attacks defense latent representation robustness

发现论文，激发创造

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

一种简单且高效的对抗性词汇替换攻击方法

本研究提出了一种简单而高效的方法，将对文本分类模型的人为攻击所需的平均查询次数减少了 3-30 倍，并且能够保持攻击效果。

May, 2022

使用随机扰动减缓情感分析模型的对抗攻击

本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案，包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。

Feb, 2022

利用目标信息的文本对抗攻击的改进和提升

本文研究了利用目标模型输出和数据对攻击率和查询率的影响，并表明两者都可以提高，同时附加查询的开销有限。

Apr, 2021

深度文本分类存在欺诈性

本文介绍了一种有效的方法来生成文本对抗样本，证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本，可以识别用于分类的文本信息，基于这些信息，设计了三种扰动策略（插入、修改、删除）来生成对抗样本。实验表明，基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器，并且可以扰动到任意的分类类别而不影响其实用性，同时所引入的扰动难以被发现。

Apr, 2017

TransFool：神经机器翻译模型的对抗攻击

本文研究了神经机器翻译模型对对抗攻击的易感性，提出了一种基于多项式优化和梯度投影步骤的攻击算法 TransFool，应用语言模型的嵌入表示生成通顺的源语言对抗样本。实验结果表明，TransFool 能够严重破坏翻译质量，但原文和对抗句子之间的语义相似度仍然很高，并可迁移到未知目标模型。因此，研究表明 NMT 模型的易感性，强调了设计强有力的防御机制和更强健的 NMT 系统的必要性。

Feb, 2023

使用深度强化模型为文本分类器生成黑盒对抗样本

提出了一种基于强化学习的方法，在黑盒设置中生成对抗性示例，能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型，并且生成的对抗示例保留了原始文本的语义。

Sep, 2019

学习攻击：朝着在现实场景中的文本对抗攻击

该研究旨在阐述在自然语言处理领域，利用强化学习的攻击模型可以从历史攻击中学习，更高效地发起攻击，并对多项任务进行对比，实验证明其在攻击性和效率方面均优于其他基线方法。

Sep, 2020

不降低性能防御预训练语言模型受到的对抗词替换攻击

本文提出了一种紧凑且性能不受影响的框架 ADFAR，采用辅助异常检测分类器和多任务学习过程较好地识别了对抗性输入的样本，并应用了频率感知的随机化过程防御对抗词置换攻击，在各种任务上显着优于其他防御方法，且没有损害 PrLMs 的整体性能。

May, 2021