Aug, 2023

FLIRT: 反馈回路内上下文的红队作战

TL;DR通过提出一种自动红队框架,我们展示了如何评估给定模型并暴露其对不安全和不适当内容生成的漏洞,并通过上下文学习和不同攻击策略来自动学习对图像生成模型有效多样的对抗提示。我们的实验证明,与基线方法相比,我们提出的策略在暴露 Stable Diffusion(SD)模型的漏洞方面效果明显更好,即使后者已经增强了安全功能。此外,我们还展示了该框架对文本生成模型的红队效果,相较于以前报道的数据,显著提高了生成有害响应的概率。