May, 2024

文本到图像生成 AI 系统的自动越狱

TL;DR最近的 AI 系统在各种任务上展现了极强的性能,甚至超过了人类的表现,包括基于大型语言模型(LLMs)的信息检索、语言生成和图像生成。然而,由于绕过 LLMs 的对齐而产生恶意内容的各种安全风险,通常被称为越狱,而以文本为基础的 LLMs 的越狱得到了更多的研究,而文本到图像(T2I)生成系统的越狱相对被忽视。本文首先评估了商用 T2I 生成系统(如 ChatGPT、Copilot 和 Gemini)在版权侵权方面的安全性(使用简单的提示),并通过这个实证研究发现,使用简单提示时,Copilot 和 Gemini 只阻止了 12% 和 17% 的攻击,而 ChatGPT 阻止了 84% 的攻击。然后,我们进一步提出了一个更强大的自动越狱流程,用于 T2I 生成系统,该系统生成可以绕过安全卫士的提示。我们的自动越狱框架利用了一个 LLM 优化器,生成可以最大程度违反生成的图像内容而不需要任何权重更新或梯度计算的提示。令人惊讶的是,我们简单而有效的方法成功越狱了 ChatGPT,封锁了 11.0% 的攻击,使其 76% 的时间内产生了侵权内容。最后,我们探讨了各种防御策略,如后处理过滤和机器遗忘技术,但发现它们是不够的,这表明了更强大的防御机制的必要性。