May, 2023
SneakyPrompt:评估文本到图像生成模型安全过滤器的鲁棒性
SneakyPrompt: Evaluating Robustness of Text-to-image Generative Models' Safety Filters
Yuchen Yang, Bo Hui, Haolin Yuan, Neil Gong, Yinzhi Cao
TL;DR该研究提出了一种名为 SneakyPrompt 的自动化攻击框架,使用强化学习来生成可以绕过现有文本到图像生成模型的安全过滤器的不安全内容。实验表明,SneakyPrompt 不仅可以成功生成 NSFW 内容,而且在查询数量和图像质量方面也优于现有的对抗攻击。