GuardT2I：保护文本到图像模型免受对抗性提示攻击

Mar, 2024

GuardT2I：保护文本到图像模型免受对抗性提示攻击

GuardT2I: Defending Text-to-Image Models from Adversarial Prompts

Yijun Yang, Ruiyuan Gao, Xiao Yang, Jianyuan Zhong, Qiang Xu

TL;DR通过使用生成方法增强文本到图像模型的鲁棒性，GuardT2I 框架在对抗性场景下显著优于 OpenAI-Moderation 和 Microsoft Azure Moderator 等商业解决方案。

Abstract

Recent advancements in Text-to-Image (T2I) models have raised significant safety concerns about their potential misuse for generating inappropriate or Not-Safe-For-Work (NSFW) contents, despite existing countermeasures such as NSFW classifiers or model fine-tuning for inappropriate con

text-to-image models safety concerns not-safe-for-work contents guardt2i adversarial prompt detection

发现论文，激发创造

潜在的守卫：一种用于文本到图像生成的安全框架

通过在文本与图像生成模型的文本编码器上学习潜空间，Latent Guard 提出了一种用于改进文本与图像生成中安全性措施的框架，能够检测输入文本嵌入中存在的有害概念。

Apr, 2024

基于隐式提示的文本到图像模型的研究

最近的文本到图像（T2I）模型取得了巨大的成功，并提出了许多基准来评估其性能和安全性。然而，它们只考虑了显性提示而忽视了隐性提示（暗示目标而没有明确提及）。这些提示可能摆脱安全约束，并对这些模型的应用构成潜在威胁。本文强调了 T2I 模型在隐性提示方面的现状，提出了一个名为 ImplicitBench 的基准，并对隐性提示对流行的 T2I 模型的性能和影响进行了调查。具体而言，我们设计并收集了三个方面的 2,000 多个隐性提示：一般符号、名人隐私和不适宜工作（NSFW）问题，并评估了六个知名 T2I 模型在这些隐性提示下的能力。实验结果表明：（1）T2I 模型能够准确地创建由隐性提示指示的各种目标符号；（2）隐性提示给 T2I 模型带来隐私泄露的潜在风险；（3）大多数评估的 T2I 模型中的 NSFW 约束可以通过隐性提示绕过。我们呼吁 T2I 社区更加关注隐性提示的潜力和风险，并进一步调查隐性提示的能力和影响，倡导一种平衡的方法，既发挥其益处又减轻其风险。

Mar, 2024

安全文本到图像生成的通用提示优化器

我们提出了第一个用于黑盒情况下安全 T2I 生成的通用提示优化器，通过构建毒性 - 清洁提示对数据集，设计奖励函数衡量生成图像的毒性和文本对齐度来训练优化器，实验证明我们的方法可以显著减少不当图像的生成概率，并且对文本对齐没有明显影响，同时与其他方法相结合能够取得更好的性能。

Feb, 2024

严重程度可控的文本到图像生成模型的偏倚操纵

通过利用嵌入的语言模型的数学基础，我们的技术使得在模型偏见的作用下对输出的严重程度进行可扩展和便捷的控制，同时也允许通过精确的提示工程生成通常不真实的图像，我们还演示了将此操纵用于平衡生成类别频率的构造性应用。

Apr, 2024

SafeGen: 缓解文本生成图像模型的不安全内容

SafeGen 是一种抵御文本到图像模型生成不安全内容的框架，通过消除不安全的视觉表示，从而提高抵御对抗性提示的能力，并在保留良性图像的高保真度的同时有效地抑制不安全内容的生成，超过了八种最先进的基线方法，实现了 99.1% 的性别内容去除性能。

Apr, 2024

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

文本到图像模型中的危害放大

我们的研究论文使用形式化定义 “harm amplification”，并开发了量化伤害扩大的方法，旨在解决 Text-to-image 模型中的安全问题，并在实际部署场景中检验了不同方法的效果，包括伤害扩大对不同性别的差异影响。

Feb, 2024

MMA-Diffusion：多模态对抗扩散模型

近年来，文本到图像（T2I）模型取得了显著进展并广泛应用，然而这一进展无意中开辟了潜在的滥用途径，尤其是生成不适宜或不安全的内容。我们的工作引入了 MMA-Diffusion，这是一个对 T2I 模型安全性构成严重和真实威胁的框架，通过有效绕过开源模型和商业在线服务的当前防御措施。与以往的方法不同，MMA-Diffusion 利用文本和视觉模式来绕过提示过滤器和事后安全检查器等保护措施，从而揭示现有防御机制的弱点。

Nov, 2023

对抗性 Nibbler：一种用于识别文本到图像生成中多样化伤害的开放式红队方法

从生成图像的文本到图像（T2I）生成 AI 模型的发展中，评估模型对非明显攻击的鲁棒性至关重要。在本文中，我们通过关注 “隐式对抗” 提示（触发 T2I 模型因非明显原因生成不安全图像的提示），独立确定了一组难以发现的安全问题，而人类创造力很适合揭示这些问题。通过构建 Adversarial Nibbler Challenge，一种用于众包隐式对抗提示的红队方法，我们汇集了一套最先进的 T2I 模型，并采用简单的用户界面来识别和注释伤害，与不同人群合作，以捕捉在标准测试中可能被忽视的长尾安全问题。挑战以连续轮次进行，以便在 T2I 模型的安全隐患的发现和分析中持续进行。本文详细介绍了我们的方法、对新攻击策略的系统性研究以及挑战参与者揭示的安全故障的讨论。我们还发布了一个伴随的可视化工具，方便从数据集中探索和得出洞察。第一轮挑战结果得到了超过 10,000 个提示 - 图像对的安全机器注释，其中 1,500 个样本的注释包含丰富的人工伤害类型和攻击风格。我们发现，人类认为有害的图像中，有 14％被机器错误标记为 “安全”。我们已经发现了新的攻击策略，凸显了确保 T2I 模型的鲁棒性的复杂性。我们的研究结果强调了对新漏洞的持续审核和适应性的必要性。我们相信这项工作将促进积极的、迭代性的安全评估，并促进 T2I 模型的负责开发。

Feb, 2024

通过自动提示优化提升文本到图像的一致性

通过利用大型语言模型，在文本到图像的生成模型中改善提示 - 图像的一致性，我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度，为构建可靠且强大的文本到图像模型铺平了道路。

Mar, 2024