DALL-E 2 的初步分析
评估了 DALL-E 2 捕捉语言学家广泛讨论的 8 种语法现象的能力,结果表明 DALL-E 2 不能可靠地推断与语法一致的含义,这挑战了最近有关这类系统理解人类语言能力的论点。
Oct, 2022
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了 3,600 个评分。
Nov, 2022
本文介绍了如何将 DALL-E、GPT-3 和 CLIP 与 CAD 软件集成在 3DALL-E 中,让用户可以根据他们建模的内容构造文本和图像提示。通过与 13 个设计师进行的研究,我们发现设计师们看到了将 3DALL-E 纳入他们的工作流程,并使用文本到图像 AI 技术进行参考图像、渲染、材料和设计考虑的巨大潜力。最后,我们提出了 3DALL-E 如何与现有的生成设计工作流程融合,以及将提示文献作为人工智能设计历史形式的探讨。
Oct, 2022
本篇研究通过对两个生成式变压器模型 ChatGPT 和 DALL-E 2 进行认知能力的选择性评估,发现 DALL-E 2 在空间推理方面有较好表现,而 ChatGPT 在合理构建下呈现出一定的合理性但也存在不合理决策,在模型认知能力评估规模扩大及答案具备的挑战方面存在困难。
Feb, 2023
本文探讨了 DALLE-2 将提示中的符号(单词)映射到生成图像中实体或实体属性的方式,强调了 DALLE-2 与人类语言处理方式之间的差异,揭示了实体间属性的语义泄漏现象,并为进一步研究文本到图像模型的归纳偏倚提供了新的切入点。
Oct, 2022
使用 DALL-E-2 的绘画文本综合引擎制作合成图像极具逼真,并可能对照片取证提出新挑战,因此本文对 DALL-E-2 合成图像的透视一致性进行了初步探索,以确定基于几何的鉴定分析是否能检测这种新型合成媒体。
Jun, 2022
人工智能内容生成的革命已经通过快速发展的文本到图像(T2I)扩散模型得到了加速。本研究中,我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统,并引入新的任务 —— 交互式文本到图像(iT2I),人们可以与 LLM(语言模型)进行交互,以生成、编辑、精炼高质量图片,并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型,我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs(如 ChatGPT、LLAMA、Baichuan 和 InternLM)下在多种常见场景中评估了我们的方法,证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能,同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注,并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。
Oct, 2023
我们提出了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力,我们将其称为常识 - T2I。给定两个对抗性的文本提示,其中包含一组相同的动作词但存在细微差异,例如 “没有电的灯泡” 与 “有电的灯泡”,我们评估 T2I 模型是否能进行视觉常识推理,即生成与 “灯泡未点亮” 和 “灯泡点亮” 相符的图像。常识 - T2I 提出了一个对抗性挑战,提供成对的文本提示和预期输出。该数据集由专家精心策划,并用细粒度标签进行注释,例如常识类型和预期输出的可能性,以帮助分析模型行为。我们对各种最先进的 T2I 模型进行了评测,令人惊讶的发现,图像合成与真实生活照片之间仍存在很大差距 —— 即使是 DALL-E 3 模型在常识 - T2I 上的准确率也仅为 48.92%,稳定的扩散 XL 模型仅能达到 24.92%的准确率。我们的实验证明 GPT 强化的提示无法解决这一挑战,并对可能导致此类不足的原因进行了详细分析。我们的目标是将常识 - T2I 作为 T2I 常识检查的高质量评估基准,促进实际生活图像生成的进展。
Jun, 2024