Sep, 2023

语言引导的对抗净化

TL;DR通过使用生成模型进行对抗性净化,可以展示出很强的对抗性防御性能。我们介绍了一种新的框架,即语言引导对抗净化(LGAP),利用预训练的扩散模型和字幕生成器来防御对抗性攻击。通过生成图像的字幕,我们的方法首先生成一个字幕,然后通过扩散网络来指导对抗性净化过程。我们的方法在对抗性攻击下经过评估,证明了其提高对抗性鲁棒性的有效性。我们的结果表明,LGAP 的性能优于大多数现有的对抗性防御技术,而不需要专门的网络训练,突显了在大规模数据集上训练的模型的广泛适用性,为进一步的研究方向提供了有希望的方向。