Instruct2Attack: 语言引导的语义对抗攻击

Nov, 2023

Instruct2Attack: 语言引导的语义对抗攻击

Instruct2Attack: Language-Guided Semantic Adversarial Attacks

Jiang Liu, Chen Wei, Yuxiang Guo, Heng Yu, Alan Yuille...

TL;DR我们提出了 Instruct2Attack（I2A），一种基于语言引导的语义攻击，根据自由形式的语言指令生成语义上有意义的扰动。我们利用最先进的潜态扩散模型，通过对逆扩散过程进行对抗性引导，寻找输入图像和文本指令条件下的对抗性潜态编码。与基于噪声和语义的现有攻击相比，I2A 生成更自然和多样的对抗性样本，同时提供更好的可控性和可解释性。我们还利用 GPT-4 自动化攻击过程，生成多样的图像特定文本指令。我们表明，即使在强大的对抗性防御下，I2A 仍能成功破解最先进的深度神经网络，并展示其在各种网络架构之间的强大迁移能力。

Abstract

We propose instruct2attack (I2A), a language-guided semantic attack that generates semantically meaningful perturbations according to free-form language instructions. We make use of state-of-the-art →

instruct2attack semantic attack latent diffusion models adversarial examples deep neural networks

发现论文，激发创造

InstructTA：针对大型视觉语言模型的指导式目标攻击

通过将目标响应转化为目标图像，并从目标响应推断出合理的指令，我们提出了一种以指令为导向的有针对性攻击方法，该方法利用共享相同视觉编码器的本地替代模型来提取对抗示例和目标图像的指令感知特征，优化对抗示例以最小化这两个特征之间的距离，从而提高攻击性能和可迁移性。

Dec, 2023

视觉模型诊断的语义图像攻击

该论文提出了一种基于语义对抗攻击的方法，即 SIA，它通过在预定义的语义属性空间和图像空间上的迭代梯度上升来结合语义追踪和感知质量这两个能够解释和分析模型缺陷的特征。该方法在模型诊断、攻击成功率以及不平衡数据鲁棒性方面具有很好的应用前景。

Mar, 2023

SemAttack: 基于不同语义空间的自然文本攻击

提出了一种有效的 SemAttack 框架，在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本，可针对包括大规模 LM 和防御策略在内的对抗方法，适用于不同语言的对抗生成，而人评结果表明生成出的对抗文本自然，几乎不影响人类的表现。

May, 2022

基于目标引导的生成式提示注入攻击大型语言模型

通过重新定义攻击目标并设计简单而有效的目标导向生成式提示注入策略（G2PIA），我们最大化纯文本和对抗文本之间的 KL 散度，从而在无查询条件下以较低的计算成本实现最佳攻击效果。在七个大型语言模型和四个数据集上的实验结果表明我们的攻击方法的有效性。

Apr, 2024

基于扩散模型的语义对抗攻击

通过利用最近的扩散模型的潜在空间中的语义信息，本文提出了一个快速生成语义对抗攻击的框架，并在 CelebA-HQ 和 AFHQ 数据集上进行了大量实验，与其他基线相比，我们的框架在多种情境中取得了极高的成功率，最佳 FID 为 36.61。

Sep, 2023

生成自然语言攻击的上下文感知方法

本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Dec, 2020

提高 NLP 模型对抗训练的技术

本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程，用于 NLP 模型的训练，可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型，提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。

Sep, 2021

语义扰动下的互模态对抗攻击

我们提出了一种新的方法，在互模态优化方案中生成对抗性攻击，利用预训练的 CLIP 模型进行视觉攻击和文本防御，并通过迭代训练策略实现攻击的转移性。我们的方法在多个基准数据集上得到了验证，表明我们的互模态攻击策略能够有效产生高可转移攻击，并且优于最先进的攻击方法，可作为即插即用解决方案。

Dec, 2023

在硬标签黑盒设置中生成自然语言攻击

该研究提出了一种决策式的攻击策略，利用基于人口统计的优化算法，通过仅观察目标模型预测的前一标签，制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比，在高度限制的情况下，成功率更高，被替换单词比例更低。

Dec, 2020

AICAttack: 基于注意力优化的对抗性图像描述攻击

通过对图像进行微小扰动，本论文提出了一种名为 AICAttack（基于注意力的图像字幕攻击）的新型对抗攻击策略，旨在攻击图像字幕模型。通过引入基于注意力的候选选择机制和微分进化（DE），我们的算法在黑盒攻击的场景中操作，无需访问目标模型的架构、参数或梯度信息，并通过在多个受害模型上的基准数据集上进行的大量实验证明了 AICAttack 的有效性，实验结果表明我们的方法在输出的单词对齐和语义方面超越了目前的领先技术。

Feb, 2024