DALLE-2 遇到瓶颈:文本转图像模型中的单词到概念映射问题
我们发现 DALLE-2 似乎有一个隐藏的词汇表,可以用于生成荒谬的提示图像,我们使用黑盒方法发现了这些随机单词与视觉概念之间的某种对应关系,这会带来重要的安全性和可解释性挑战。
Jun, 2022
评估了 DALL-E 2 捕捉语言学家广泛讨论的 8 种语法现象的能力,结果表明 DALL-E 2 不能可靠地推断与语法一致的含义,这挑战了最近有关这类系统理解人类语言能力的论点。
Oct, 2022
本文使用类似稳定扩散模型 (Stable Diffusion model) 和 CLIP 编码器来解释文本到图像扩散模型在生成带有多重意义词汇的描述时所展现的奇特行为,两种方法均为通过对词汇向量的线性变化使生成的图像更加明确地反映所需的含义。
Nov, 2022
人工智能内容生成的革命已经通过快速发展的文本到图像(T2I)扩散模型得到了加速。本研究中,我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统,并引入新的任务 —— 交互式文本到图像(iT2I),人们可以与 LLM(语言模型)进行交互,以生成、编辑、精炼高质量图片,并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型,我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs(如 ChatGPT、LLAMA、Baichuan 和 InternLM)下在多种常见场景中评估了我们的方法,证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能,同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注,并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。
Oct, 2023
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了 3,600 个评分。
Nov, 2022
利用 GPT-4 生成提示并使用 Diffusion Attentive Attribution Maps (DAAM) 进行热图分析,我们引入了一个新的数据集 WinoVis,用于在多模态环境中对文本到图像模型进行代词消岐。通过对连续模型版本的评估,我们发现尽管有逐步的进展,Stable Diffusion 2.0 在 WinoVis 上的准确率仅为 56.7%,只略微超过随机猜测。进一步的错误分析确定了未来研究的重要方向,旨在提升文本到图像模型在解释和与复杂视觉世界交互的能力。
May, 2024
本文通过对两个流行的 T2I 模型(DALLE-v2 和 Stable Diffusion)进行广泛的自动化和人工评估实验,专注于反映出的性别、年龄、种族和地理位置之间的职业,人格特征和日常情况的生成图像,研究和量化常见的社会偏见。我们的研究结果表明,这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差,但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。
Mar, 2023
最近所提出的大规模图文生成模型(如 DALLE-3)在新应用中表现出很大的潜力,但也面临着前所未有的公平性挑战。此研究通过提出一种新颖的配对刻板印象测试(PST)偏见评估框架来研究这些 T2I 模型中性别偏见的潜在因素。通过 PST,我们从两个方面评估了 DALLE-3:性别职业偏见和组织权力偏见。结果表明,尽管 DALLE-3 在单人情景下似乎公平甚至与刻板印象相悖,但在 PST 下仍揭示了性别职业偏见和权力关联偏见。PST 有效地揭示了 DALLE-3 中单人情景无法捕捉到的潜在性别偏见,进一步凸显了多模态生成系统中的公平性挑战。
Feb, 2024