Jun, 2024

欺骗性扩散:生成合成对抗样本

TL;DR引入了欺骗扩散的概念 -- 训练生成 AI 模型以产生具有对抗性的图像。与传统的对抗性攻击算法不同,欺骗扩散模型可以创建任意数量的新的、被错误分类的图像,这些图像与训练或测试图像没有直接关联。欺骗扩散在规模上提供了对抗性训练数据以加强防御算法,包括在其他情况下难以找到的错误分类类型。在我们的实验中,我们还研究了在部分受攻击数据集上进行训练的效果。这突出了生成扩散模型的一种新型漏洞:如果攻击者能够秘密地污染部分训练数据,那么生成的扩散模型将产生相似比例的误导输出。