Nov, 2023

Instruct2Attack: 语言引导的语义对抗攻击

TL;DR我们提出了 Instruct2Attack(I2A),一种基于语言引导的语义攻击,根据自由形式的语言指令生成语义上有意义的扰动。我们利用最先进的潜态扩散模型,通过对逆扩散过程进行对抗性引导,寻找输入图像和文本指令条件下的对抗性潜态编码。与基于噪声和语义的现有攻击相比,I2A 生成更自然和多样的对抗性样本,同时提供更好的可控性和可解释性。我们还利用 GPT-4 自动化攻击过程,生成多样的图像特定文本指令。我们表明,即使在强大的对抗性防御下,I2A 仍能成功破解最先进的深度神经网络,并展示其在各种网络架构之间的强大迁移能力。