文本到图像生成 AI 系统的自动越狱

May, 2024

文本到图像生成 AI 系统的自动越狱

Automatic Jailbreaking of the Text-to-Image Generative AI Systems

Minseon Kim, Hyomin Lee, Boqing Gong, Huishuai Zhang, Sung Ju Hwang

TL;DR最近的 AI 系统在各种任务上展现了极强的性能，甚至超过了人类的表现，包括基于大型语言模型（LLMs）的信息检索、语言生成和图像生成。然而，由于绕过 LLMs 的对齐而产生恶意内容的各种安全风险，通常被称为越狱，而以文本为基础的 LLMs 的越狱得到了更多的研究，而文本到图像（T2I）生成系统的越狱相对被忽视。本文首先评估了商用 T2I 生成系统（如 ChatGPT、Copilot 和 Gemini）在版权侵权方面的安全性（使用简单的提示），并通过这个实证研究发现，使用简单提示时，Copilot 和 Gemini 只阻止了 12% 和 17% 的攻击，而 ChatGPT 阻止了 84% 的攻击。然后，我们进一步提出了一个更强大的自动越狱流程，用于 T2I 生成系统，该系统生成可以绕过安全卫士的提示。我们的自动越狱框架利用了一个 LLM 优化器，生成可以最大程度违反生成的图像内容而不需要任何权重更新或梯度计算的提示。令人惊讶的是，我们简单而有效的方法成功越狱了 ChatGPT，封锁了 11.0% 的攻击，使其 76% 的时间内产生了侵权内容。最后，我们探讨了各种防御策略，如后处理过滤和机器遗忘技术，但发现它们是不够的，这表明了更强大的防御机制的必要性。

Abstract

Recent ai systems have shown extremely powerful performance, even surpassing human performance, on various tasks such as information retrieval, language generation, and image generation based on large language models (LLMs). At the same time, there are diverse safety risks that can cau

ai systems text-to-image generation jailbreaking copyright infringement defense mechanisms

发现论文，激发创造

GuardT2I：保护文本到图像模型免受对抗性提示攻击

通过使用生成方法增强文本到图像模型的鲁棒性，GuardT2I 框架在对抗性场景下显著优于 OpenAI-Moderation 和 Microsoft Azure Moderator 等商业解决方案。

Mar, 2024

通过提示工程实现 ChatGPT 越狱：一项实证研究

本研究研究了 Large Language Models（LLMs）中存在的内容限制和潜在误用的挑战，并调查了与破解 LLMs 相关的三个关键问题：不同提示类型的数量、提示对抗 LLMs 限制的有效性以及 ChatGPT 对这些提示的鲁棒性。该研究根据分类模型分析现有提示的分布，识别了 10 种不同模式和三种破解提示类别。此外，研究利用 8120 个问题的数据集，评估了 ChatGPT 版本 3.5 和 4.0 中破解提示的能力，最终发现提示可以在 40 个用例场景中始终逃脱限制。该研究强调了提示结构在破解 LLMs 中的重要性，并讨论了生成和防止鲁棒破解提示的挑战。

May, 2023

使用词替代密码破解专有大型语言模型

大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，此外，我们还讨论了这些模型的过度防御性。

Feb, 2024

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

ChatGPT 多步越狱隐私攻击

本研究探讨了 OpenAI 和 New Bing API 应用中集成的大型语言模型对隐私的威胁，通过实验支持了对应用集成的 LLM 可能带来比以前更严重的隐私威胁的观点。

Apr, 2023

如何请求决定一切：针对越狱攻击的简单黑盒方法

通过使用以 ChatGPT 为目标的简单黑盒方法，本研究有效地生成越过伦理规定的提示，突破了现有方法的复杂性和计算成本的限制，该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式，该研究结果表明，创建有效的越狱提示比以前认为的更简单，并且黑盒越狱攻击构成了更严重的安全威胁。

Jan, 2024

个性化文本到图像生成的自动黑盒提示工程

PRISM 是一种自动识别人类可解释且可迁移的提示的算法，它可以有效地生成所需概念，仅通过对 T2I 模型的黑盒访问。

Mar, 2024

协同生成人工智能：在文本到图像生成中集成 GPT-k 以进行高效编辑

该研究使用 GPT-k 等大型语言模型来改进文本到图像生成中的提示编辑过程，发现 GPT-k 模型更专注于插入修改词语，从而减少 20-30% 的剩余编辑。

May, 2023

ArtPrompt: 基于 ASCII 艺术的针对对齐的 LLMs 的越狱攻击

大型语言模型（LLMs）的安全性对其使用至关重要。本论文提出了一种基于 ASCII 艺术的越狱攻击（ArtPrompt）并引入了综合评估 LLMs 在识别非仅通过语义解释的提示方面能力的基准 Vision-in-Text Challenge（ViTC）。论文展示了五种 SOTA LLMs（GPT-3.5、GPT-4、Gemini、Claude 和 Llama2）在识别 ASCII 艺术形式的提示方面存在困难，并以此观察为基础，成功开发了越狱攻击 ArtPrompt，通过利用 LLMs 在识别 ASCII 艺术方面的性能差距来绕过安全措施并引发 LLMs 的不良行为。我们对五种 SOTA LLMs 进行了 ArtPrompt 的评估，结果表明 ArtPrompt 能够有效高效地诱发所有五种 LLMs 的不良行为。

Feb, 2024

自我欺骗：大型语言模型语义防火墙的逆渗透

通过研究语言模型监管的方法和攻击，本文提出一种自动破解监管的方法，即引入语意防火墙概念并提供三种技术实现方式，从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性，为未来研究提供了启示。

Aug, 2023