对话生成的白盒多目标对抗攻击

ACLMay, 2023

White-Box Multi-Objective Adversarial Attack on Dialogue Generation

Yufei Li, Zexin Li, Yingfan Gao, Cong Liu

TL;DR通过提出一种名为 DGSlow 的白盒多目标攻击方法，该方法通过梯度优化来平衡生成精度与长度，并通过适应性搜索机制来逐步制作仅有几个修改的对抗样本，并将其用于四个基准数据集的全面实验，成功率比传统的以准确性为基础的方法更高，同时还展示了强大的攻击转移性。

Abstract

pre-trained transformers are popular in state-of-the-art dialogue generation (DG) systems. Such language models are, however, vulnerable to various →

发现论文，激发创造

本文介绍了对抗性训练及其在构建鲁棒模型方面的应用，提出了新型白盒和黑盒攻击，即灰盒对抗攻击，提出了一种新颖的模型鲁棒性评估方法，并提出了一种新型的对抗性训练：灰盒对抗训练，其使用模型的中间版本来引导敌手生成更加有效的对抗样本，实验证明此方面的成果优于传统方法。

Aug, 2018

本文提出了基于多目标进化优化的黑盒攻击 Automatic Speech Recognition (ASR) 系统的框架，并将其应用于两个 ASR 系统：Deepspeech 和 Kaldi-ASR，成功地将这些系统的错误率提高了高达 980%。

Nov, 2018

本研究提出了一种基于字符串编辑的白盒敌手算法，并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现，白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子，并证明在对抗训练中取得了显著的鲁棒性提高。

Jun, 2018

本文提出 mixPGD 对抗训练方法以提高基于深度神经网络的自动语音识别系统的鲁棒性，实验表明该方法比以前的最佳模型在白盒对抗攻击设置下性能提高了 4.1％WER，并且在黑盒攻击设置下也表现出一定的防御能力。

Mar, 2023

本文提出了首个基于梯度的通用攻击转换器模型算法，通过搜索由连续矩阵参数化的对抗性样本分布实现梯度优化，并在各种自然语言任务中证明其白盒攻击表现的最先进性。此外，本文还展示使用对对抗分布进行采样实现的强大黑盒转移攻击匹配或超越现有方法，而仅需要硬标签输出。

Apr, 2021

本文采用进化算法和梯度估计两种方法，结合黑盒攻击策略（不知道模型结构和参数）实现对语音自动识别系统的针对性攻击，最终在保持音频文件相似度为 94.6% 的前提下，实现了 89.25% 的针对性攻击相似度。

May, 2018

通过系统评估我们提出的减速攻击对多出口语言模型的鲁棒性，我们发现多出口机制越复杂，越容易受到减速攻击的影响，并且在对抗训练方面的效果有限，但使用会话模型进行输入清理可以有效去除扰动。这一研究表明需要进一步开发高效且鲁棒的多出口模型。

Oct, 2023

本文提出了一种称为 DeepWordBug 的算法，它可以在黑盒设置下生成小的文本扰动以强制深度学习分类器错误地分类文本输入，并通过基于词的 LSTM 和基于字符的 CNN 等八个真实世界文本数据集的实验表明，我们的算法可以有效地降低当前最先进的深度学习模型的预测准确性。

Jan, 2018

本文针对任务导向的对话系统中的意图识别和参数标记存在的过度敏感问题，介绍了构建对抗性测试集和采用对抗性训练方法和数据增强来提高模型健壮性的解决方案。实验结果表明，这些技术的组合能显著提高系统的健壮性。

Nov, 2019

本文提出了一种针对图像到文本模型的灰盒对抗攻击方法，并通过实验验证了其有效性。

Jun, 2023