May, 2024

扰乱传播:基于令牌级别的注意力删除攻击针对基于传播的定制化

TL;DR本文提出了 DisDiff(Disrupting Diffusion),一种破坏扩散模型输出的新型对抗攻击方法。通过运用 Cross-Attention Erasure 模块来显式 “擦除” 指示的注意力图,并分析扩散模型的采样过程对 PGD 攻击的影响,引入了一种新颖的 Merit Sampling Scheduler 来自适应地调节扰动更新振幅。在两个面部基准和两个常用的提示场景上,我们的 DisDiff 方法在 FDFR 分数上优于现有方法 12.75%,在 ISM 分数上优于现有方法 7.25%。