DALL-E 2 的初步分析

Apr, 2022

A very preliminary analysis of DALL-E 2

Gary Marcus, Ernest Davis, Scott Aaronson

TL;DRDALL-E 2 生成与输入文本相对应的原创合成图像，并进行了 14 项测试，以评估其常识，推理和理解复杂文本的能力。

Abstract

The dall-e 2 system generates original synthetic images corresponding to an input text as caption. We report here on the outcome of fourteen tests of this system designed to assess its →

dall-e 2 synthetic images common sense reasoning complex texts

发现论文，激发创造

DALL-E 2 中组合句法和语义的比较研究

DALL-E 2 在语义准确性方面无法与年幼儿童相媲美，这表明它在组合句子表示方面存在明显缺陷。

Mar, 2024

DALL-E 2 无法可靠地捕捉常见的语法过程

评估了 DALL-E 2 捕捉语言学家广泛讨论的 8 种语法现象的能力，结果表明 DALL-E 2 不能可靠地推断与语法一致的含义，这挑战了最近有关这类系统理解人类语言能力的论点。

Oct, 2022

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

DALL-E 2 的伦理状况

研究了人工智能图像生成系统的伦理问题，着重分析了社会对此的回应以及应对措施。

May, 2024

3DALL-E：在 3D 设计工作流中集成文本到图像人工智能

本文介绍了如何将 DALL-E、GPT-3 和 CLIP 与 CAD 软件集成在 3DALL-E 中，让用户可以根据他们建模的内容构造文本和图像提示。通过与 13 个设计师进行的研究，我们发现设计师们看到了将 3DALL-E 纳入他们的工作流程，并使用文本到图像 AI 技术进行参考图像、渲染、材料和设计考虑的巨大潜力。最后，我们提出了 3DALL-E 如何与现有的生成设计工作流程融合，以及将提示文献作为人工智能设计历史形式的探讨。

Oct, 2022

关于 ChatGPT 和 DALL-E 2 在决策制定和空间推理方面的试点评估

本篇研究通过对两个生成式变压器模型 ChatGPT 和 DALL-E 2 进行认知能力的选择性评估，发现 DALL-E 2 在空间推理方面有较好表现，而 ChatGPT 在合理构建下呈现出一定的合理性但也存在不合理决策，在模型认知能力评估规模扩大及答案具备的挑战方面存在困难。

Feb, 2023

DALLE-2 遇到瓶颈：文本转图像模型中的单词到概念映射问题

本文探讨了 DALLE-2 将提示中的符号（单词）映射到生成图像中实体或实体属性的方式，强调了 DALLE-2 与人类语言处理方式之间的差异，揭示了实体间属性的语义泄漏现象，并为进一步研究文本到图像模型的归纳偏倚提供了新的切入点。

Oct, 2022

文本表述对图像的视角（不）一致性

使用 DALL-E-2 的绘画文本综合引擎制作合成图像极具逼真，并可能对照片取证提出新挑战，因此本文对 DALL-E-2 合成图像的透视一致性进行了初步探索，以确定基于几何的鉴定分析是否能检测这种新型合成媒体。

Jun, 2022

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

常识 T2I 挑战：文本到图像生成模型能否理解常识？

我们提出了一个新的任务和基准，用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力，我们将其称为常识 - T2I。给定两个对抗性的文本提示，其中包含一组相同的动作词但存在细微差异，例如 “没有电的灯泡” 与 “有电的灯泡”，我们评估 T2I 模型是否能进行视觉常识推理，即生成与 “灯泡未点亮” 和 “灯泡点亮” 相符的图像。常识 - T2I 提出了一个对抗性挑战，提供成对的文本提示和预期输出。该数据集由专家精心策划，并用细粒度标签进行注释，例如常识类型和预期输出的可能性，以帮助分析模型行为。我们对各种最先进的 T2I 模型进行了评测，令人惊讶的发现，图像合成与真实生活照片之间仍存在很大差距 —— 即使是 DALL-E 3 模型在常识 - T2I 上的准确率也仅为 48.92％，稳定的扩散 XL 模型仅能达到 24.92％的准确率。我们的实验证明 GPT 强化的提示无法解决这一挑战，并对可能导致此类不足的原因进行了详细分析。我们的目标是将常识 - T2I 作为 T2I 常识检查的高质量评估基准，促进实际生活图像生成的进展。

Jun, 2024