基于隐式提示的文本到图像模型的研究

Mar, 2024

基于隐式提示的文本到图像模型的研究

Position Paper: Towards Implicit Prompt For Text-To-Image Models

Yue Yang, Yuqi lin, Hong Liu, Wenqi Shao, Runjian Chen...

TL;DR最近的文本到图像（T2I）模型取得了巨大的成功，并提出了许多基准来评估其性能和安全性。然而，它们只考虑了显性提示而忽视了隐性提示（暗示目标而没有明确提及）。这些提示可能摆脱安全约束，并对这些模型的应用构成潜在威胁。本文强调了 T2I 模型在隐性提示方面的现状，提出了一个名为 ImplicitBench 的基准，并对隐性提示对流行的 T2I 模型的性能和影响进行了调查。具体而言，我们设计并收集了三个方面的 2,000 多个隐性提示：一般符号、名人隐私和不适宜工作（NSFW）问题，并评估了六个知名 T2I 模型在这些隐性提示下的能力。实验结果表明：（1）T2I 模型能够准确地创建由隐性提示指示的各种目标符号；（2）隐性提示给 T2I 模型带来隐私泄露的潜在风险；（3）大多数评估的 T2I 模型中的 NSFW 约束可以通过隐性提示绕过。我们呼吁 T2I 社区更加关注隐性提示的潜力和风险，并进一步调查隐性提示的能力和影响，倡导一种平衡的方法，既发挥其益处又减轻其风险。

Abstract

Recent text-to-image (T2I) models have had great success, and many benchmarks have been proposed to evaluate their performance and safety. However, they only consider explicit prompts while neglecting implicit prompts (hint at a target without explicitly mentioning it). These prompts m

text-to-image models implicit prompts implicitbench privacy leakage nsfw issues

发现论文，激发创造

GuardT2I：保护文本到图像模型免受对抗性提示攻击

通过使用生成方法增强文本到图像模型的鲁棒性，GuardT2I 框架在对抗性场景下显著优于 OpenAI-Moderation 和 Microsoft Azure Moderator 等商业解决方案。

Mar, 2024

安全文本到图像生成的通用提示优化器

我们提出了第一个用于黑盒情况下安全 T2I 生成的通用提示优化器，通过构建毒性 - 清洁提示对数据集，设计奖励函数衡量生成图像的毒性和文本对齐度来训练优化器，实验证明我们的方法可以显著减少不当图像的生成概率，并且对文本对齐没有明显影响，同时与其他方法相结合能够取得更好的性能。

Feb, 2024

通过自动提示优化提升文本到图像的一致性

通过利用大型语言模型，在文本到图像的生成模型中改善提示 - 图像的一致性，我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度，为构建可靠且强大的文本到图像模型铺平了道路。

Mar, 2024

使用 Gecko 重新审视文本到图像评估：关于指标、提示和人类评级

我们通过对自动评价度量和人类模板进行广泛研究，介绍了一种综合的基于技能的基准，收集了超过 100,000 个注释，并引入了一种新的基于问答的自动评价度量，以在各种人类模板和 TIFA160 上更好地与人类评分相关联。

Apr, 2024

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

此篇论文提出了一种名为 Prompt-Free Diffusion 的图像合成框架，该框架基于仅视觉输入，不需要文本提示就能生成新图像，其核心架构是语义上下文编码器 (SeeCoder)，该框架在图像合成方面表现出色，不仅在基于示例的合成方法方面优于先前的方法，在遵循最佳实践的提示下，也能与最先进的 T2I 模型相媲美。

May, 2023

严重程度可控的文本到图像生成模型的偏倚操纵

通过利用嵌入的语言模型的数学基础，我们的技术使得在模型偏见的作用下对输出的严重程度进行可扩展和便捷的控制，同时也允许通过精确的提示工程生成通常不真实的图像，我们还演示了将此操纵用于平衡生成类别频率的构造性应用。

Apr, 2024

文本图像模型分析偏差的单词级解释

本文的研究目的是探讨文本转图像模型（T2I）如何在生成图像时通过特定的单词体现出种族和性别的偏见，作者通过遮蔽语言模型计算各单词的影响得分，实验结果表明该方法能够用于识别生成图像中的社会刻板印象。

Jun, 2023

通过文本生成图像透视社交偏见

本文通过对两个流行的 T2I 模型（DALLE-v2 和 Stable Diffusion）进行广泛的自动化和人工评估实验，专注于反映出的性别、年龄、种族和地理位置之间的职业，人格特征和日常情况的生成图像，研究和量化常见的社会偏见。我们的研究结果表明，这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差，但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。

Mar, 2023

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

文本到图像生成对齐度评估度量 TIAM

通过针对 prompt 模板的新度量方法，本文对多种 Text-to-Image（T2I）模型的对齐性进行了研究，并发现潜在噪声和提示概念数量、顺序和属性等因素对图像生成的影响。

Jul, 2023