May, 2024

R.A.C.E.:强健的对抗概念擦除用于安全的文本到图像扩散模型

TL;DR为应对生成敏感内容的风险,本研究提出了一种新方法 Robust Adversarial Concept Erase (RACE),通过增强概念抹除方法的鲁棒性,显著降低了对抗性文本嵌入的攻击成功率,成功减少了 “裸露” 概念攻击的 ASR 攻击率 30 个百分点,并在对抗白盒与黑盒攻击中展现了有效性,为保护文本到图像扩散模型免受生成不当或误导性图像的需求提供了明显进展,并强调了积极防御措施在适应快速发展的对抗性挑战领域中的重要性。