Sep, 2023

Prompting4Debugging: 通过找到问题提示来进行 Red-Teaming 文本到图像传播模型 (Debugging4Prompting: Red-Teaming Text-to-Image Diffusion Models)

TL;DR利用 Prompting4Debugging (P4D) 工具,我们发现了 Stable Diffusion(SD)模型中的新脆弱性,显示出许多原先被认为 “安全” 的提示实际上可以绕过许多已部署的安全机制,包括概念删除、负面提示和安全指导。这些发现表明,在没有全面测试的情况下,对有限的安全提示基准进行评估可能导致对文本到图像模型的安全性产生错误的认识。