DALLE-2 遇到瓶颈：文本转图像模型中的单词到概念映射问题

EMNLPOct, 2022

DALLE-2 遇到瓶颈：文本转图像模型中的单词到概念映射问题

DALLE-2 is Seeing Double: Flaws in Word-to-Concept Mapping in Text2Image Models

Royi Rassin, Shauli Ravfogel, Yoav Goldberg

TL;DR本文探讨了 DALLE-2 将提示中的符号（单词）映射到生成图像中实体或实体属性的方式，强调了 DALLE-2 与人类语言处理方式之间的差异，揭示了实体间属性的语义泄漏现象，并为进一步研究文本到图像模型的归纳偏倚提供了新的切入点。

Abstract

We study the way dalle-2 maps symbols (words) in the prompt to their references (entities or properties of entities in the generated image). We show that in stark contrast to the way human process language, dalle-2

dalle-2 language processing text-to-image models semantic leakage inductive biases

发现论文，激发创造

发现 DALLE-2 的隐藏词汇

我们发现 DALLE-2 似乎有一个隐藏的词汇表，可以用于生成荒谬的提示图像，我们使用黑盒方法发现了这些随机单词与视觉概念之间的某种对应关系，这会带来重要的安全性和可解释性挑战。

Jun, 2022

DALL-E 2 的初步分析

DALL-E 2 生成与输入文本相对应的原创合成图像，并进行了 14 项测试，以评估其常识，推理和理解复杂文本的能力。

Apr, 2022

DALL-E 2 无法可靠地捕捉常见的语法过程

评估了 DALL-E 2 捕捉语言学家广泛讨论的 8 种语法现象的能力，结果表明 DALL-E 2 不能可靠地推断与语法一致的含义，这挑战了最近有关这类系统理解人类语言能力的论点。

Oct, 2022

DALL-E 2 中组合句法和语义的比较研究

DALL-E 2 在语义准确性方面无法与年幼儿童相媲美，这表明它在组合句子表示方面存在明显缺陷。

Mar, 2024

薛定谔的蝙蝠：扩散模型有时会在叠加态中生成多义词

本文使用类似稳定扩散模型 (Stable Diffusion model) 和 CLIP 编码器来解释文本到图像扩散模型在生成带有多重意义词汇的描述时所展现的奇特行为，两种方法均为通过对词汇向量的线性变化使生成的图像更加明确地反映所需的含义。

Nov, 2022

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

描绘模糊性：对 Winograd 模式挑战的视觉转折

利用 GPT-4 生成提示并使用 Diffusion Attentive Attribution Maps (DAAM) 进行热图分析，我们引入了一个新的数据集 WinoVis，用于在多模态环境中对文本到图像模型进行代词消岐。通过对连续模型版本的评估，我们发现尽管有逐步的进展，Stable Diffusion 2.0 在 WinoVis 上的准确率仅为 56.7％，只略微超过随机猜测。进一步的错误分析确定了未来研究的重要方向，旨在提升文本到图像模型在解释和与复杂视觉世界交互的能力。

May, 2024

通过文本生成图像透视社交偏见

本文通过对两个流行的 T2I 模型（DALLE-v2 和 Stable Diffusion）进行广泛的自动化和人工评估实验，专注于反映出的性别、年龄、种族和地理位置之间的职业，人格特征和日常情况的生成图像，研究和量化常见的社会偏见。我们的研究结果表明，这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差，但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。

Mar, 2023

男性 CEO 和女性助理：通过成对定型测试探索文本到图像模型中的性别偏见

最近所提出的大规模图文生成模型（如 DALLE-3）在新应用中表现出很大的潜力，但也面临着前所未有的公平性挑战。此研究通过提出一种新颖的配对刻板印象测试（PST）偏见评估框架来研究这些 T2I 模型中性别偏见的潜在因素。通过 PST，我们从两个方面评估了 DALLE-3：性别职业偏见和组织权力偏见。结果表明，尽管 DALLE-3 在单人情景下似乎公平甚至与刻板印象相悖，但在 PST 下仍揭示了性别职业偏见和权力关联偏见。PST 有效地揭示了 DALLE-3 中单人情景无法捕捉到的潜在性别偏见，进一步凸显了多模态生成系统中的公平性挑战。

Feb, 2024