Prompting4Debugging: 通过找到问题提示来进行 Red-Teaming 文本到图像传播模型 (Debugging4Prompting: Red-Teaming Text-to-Image Diffusion Models)

Sep, 2023

Prompting4Debugging: 通过找到问题提示来进行 Red-Teaming 文本到图像传播模型 (Debugging4Prompting: Red-Teaming Text-to-Image Diffusion Models)

Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts

Zhi-Yi Chin, Chieh-Ming Jiang, Ching-Chun Huang, Pin-Yu Chen, Wei-Chen Chiu

TL;DR利用 Prompting4Debugging (P4D) 工具，我们发现了 Stable Diffusion（SD）模型中的新脆弱性，显示出许多原先被认为 “安全” 的提示实际上可以绕过许多已部署的安全机制，包括概念删除、负面提示和安全指导。这些发现表明，在没有全面测试的情况下，对有限的安全提示基准进行评估可能导致对文本到图像模型的安全性产生错误的认识。

Abstract

text-to-image diffusion models, e.g. stable diffusion (SD), lately have shown remarkable ability in high-quality content generation, and become one of the representatives for the recent wave of transformative AI.

text-to-image diffusion models stable diffusion generative technology safety mechanisms prompt manipulation

发现论文，激发创造

SneakyPrompt：评估文本到图像生成模型安全过滤器的鲁棒性

该研究提出了一种名为 SneakyPrompt 的自动化攻击框架，使用强化学习来生成可以绕过现有文本到图像生成模型的安全过滤器的不安全内容。实验表明，SneakyPrompt 不仅可以成功生成 NSFW 内容，而且在查询数量和图像质量方面也优于现有的对抗攻击。

May, 2023

扩散模型中的提示工程研究

本论文提出了使用文本转图片模型（比如 DALL-E 2、Imagen、Mid Journey 和 Stable Diffusion）时遇到的一个问题：如何选择正确的提示词以达到预期的艺术输出效果。作者提出了一种衡量提示词效果的技术，并给出了选择提示词以实现预期效果的指导（见附录）。

Nov, 2022

反向稳定扩散：生成此图像所使用的提示是什么？

预测生成式扩散模型所生成图像的文本提示，采用联合回归和多标签词汇分类目标的新型学习框架，结合白盒和黑盒模型解决生成文本提示的问题，并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明，该学习框架在预测文本提示任务上取得了出色的结果，尤其在白盒模型上应用时效果最好，并发现在生成文本到图像时将该模型用于回收训练能够使生成的图像与输入提示更好地对齐。

Aug, 2023

安全隐变扩散：缓解扩散模型中的不当降解

为了解决当前依赖互联网数据随机抓取并导致人类行为退化和偏见的文本导向图像生成方法在生成图像时存在的问题，我们提出了一种名为安全潜在扩散（SLD）的图像噪声过滤方法，从而通过包含不恰当的图像提示的实际图像 - 文本提示解决了这些问题。经过详尽的实证评估表明，SLD 能够在扩散过程中去除不恰当的图像部分，不需要额外的培训，并且对图像质量或文本对齐没有负面影响。

Nov, 2022

FLIRT: 反馈回路内上下文的红队作战

通过提出一种自动红队框架，我们展示了如何评估给定模型并暴露其对不安全和不适当内容生成的漏洞，并通过上下文学习和不同攻击策略来自动学习对图像生成模型有效多样的对抗提示。我们的实验证明，与基线方法相比，我们提出的策略在暴露 Stable Diffusion（SD）模型的漏洞方面效果明显更好，即使后者已经增强了安全功能。此外，我们还展示了该框架对文本生成模型的红队效果，相较于以前报道的数据，显著提高了生成有害响应的概率。

Aug, 2023

提示硬或几乎不提示：用于文本到图像扩散模型的 Prompt 反转

通过使生成的图像内容与用户意图一致的提示，该方法利用扩散模型进行串行优化得到直观的语言提示，从而产生具有相似内容的多样化图像。

Dec, 2023

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

此篇论文提出了一种名为 Prompt-Free Diffusion 的图像合成框架，该框架基于仅视觉输入，不需要文本提示就能生成新图像，其核心架构是语义上下文编码器 (SeeCoder)，该框架在图像合成方面表现出色，不仅在基于示例的合成方法方面优于先前的方法，在遵循最佳实践的提示下，也能与最先进的 T2I 模型相媲美。

May, 2023

BeautifulPrompt: 文本到图像合成的自动提示工程化

我们提出了 BeautifulPrompt，这是一个深度生成模型，可以从非常简单的原始描述中生成高质量的提示，从而使基于扩散模型生成更美丽的图像。我们使用视觉 AI 反馈的强化学习技术来进一步优化模型，以提高生成的提示和图像的质量，并将 BeautifulPrompt 集成到云原生 AI 平台，提供更好的云端文本到图像生成服务。

Nov, 2023

对抗性 Nibbler：一种用于识别文本到图像生成中多样化伤害的开放式红队方法

从生成图像的文本到图像（T2I）生成 AI 模型的发展中，评估模型对非明显攻击的鲁棒性至关重要。在本文中，我们通过关注 “隐式对抗” 提示（触发 T2I 模型因非明显原因生成不安全图像的提示），独立确定了一组难以发现的安全问题，而人类创造力很适合揭示这些问题。通过构建 Adversarial Nibbler Challenge，一种用于众包隐式对抗提示的红队方法，我们汇集了一套最先进的 T2I 模型，并采用简单的用户界面来识别和注释伤害，与不同人群合作，以捕捉在标准测试中可能被忽视的长尾安全问题。挑战以连续轮次进行，以便在 T2I 模型的安全隐患的发现和分析中持续进行。本文详细介绍了我们的方法、对新攻击策略的系统性研究以及挑战参与者揭示的安全故障的讨论。我们还发布了一个伴随的可视化工具，方便从数据集中探索和得出洞察。第一轮挑战结果得到了超过 10,000 个提示 - 图像对的安全机器注释，其中 1,500 个样本的注释包含丰富的人工伤害类型和攻击风格。我们发现，人类认为有害的图像中，有 14％被机器错误标记为 “安全”。我们已经发现了新的攻击策略，凸显了确保 T2I 模型的鲁棒性的复杂性。我们的研究结果强调了对新漏洞的持续审核和适应性的必要性。我们相信这项工作将促进积极的、迭代性的安全评估，并促进 T2I 模型的负责开发。

Feb, 2024

不安全的扩散：关于从文本到图像模型生成不安全图像和令人憎恶的表情包

研究发现最新的文本到图像生成模型可能会生成危险的、令人讨厌的和恶毒的图片，为此提出了多种缓解措施。

May, 2023