构图与变形：利用文本到图像模型度量图像化程度

Jun, 2023

构图与变形：利用文本到图像模型度量图像化程度

Composition and Deformance: Measuring Imageability with a Text-to-Image Model

Si Wu, David A. Smith

TL;DR本研究使用 DALLE mini 等文本到图像生成模型，探讨了计算方法来评估英语单词和连接文本的形象化，并发现了计算方法与人类判断单词的高度相关性以及相对基线方法对组合变化的更一致响应。

Abstract

Although psycholinguists and psychologists have long studied the tendency of linguistic strings to evoke mental images in hearers or readers, most computational studies have applied this concept of imageability only to isolated words. Using recent developments in →

imageability text-to-image generation models compositional change corpora psycholinguistics

发现论文，激发创造

ConceptBed: 评估文本到图像扩散模型的概念学习能力

为了定量衡量 T2I 模型在学习和合成新型视觉概念的能力，该论文提出了一个大规模数据集 ConceptBed 和一个新的评估指标 Concept Confidence Deviation (CCD)，作者评估了对象、属性、样式及四种组合性维度，研究发现概念学习和保持组合性之间存在权衡。

Jun, 2023

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

评估文本到图像合成：图像质量指标的调查和分类

最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐，研究人员开发了新的评估指标，通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标，并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集，并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后，我们提出了改进文本到图像评估的准则，并讨论了目前的挑战和限制。

Mar, 2024

DALL-Eval: 探测文本到图像生成模型的推理能力与社会偏见

对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查，提出 PaintSkills 工具集进行测量评估，发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距，并且其在性别和肤色方面的偏见对其表现产生了影响。

Feb, 2022

使用大型视觉 - 语言模型学习文本的视觉特征

该论文提出了一种基于大型视觉语言模型 CLIP 的 fine-tuning 策略，用于从文本中评分文本的视觉性，并对其进行分类，得到了比其他方法更好的结果，并展示了文本视觉性对于文本生成任务的重要性。

May, 2023

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

通过词向量预测单词的具体性和形象性跨语言和语言内的

通过有监督学习，利用词嵌入作为解释变量，我们研究了具体性和形象性这两个概念的可预测性。我们利用与单一向量空间对齐的跨语言嵌入的集合在语言内和语言间进行预测。我们发现，具体性和形象性这两个概念在语言内和语言间都具有高度可预测性，跨语言预测的相关性损失最多达到 20％。我们进一步展示了通过词嵌入的跨语言传输比简单通过双语词典进行传输更加有效。

Jul, 2018

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

通过 WordNet 层次结构评估文本到图像模型的上义词理解

使用自动度量标准，评估了文本到图像模型在语言理解方面的能力，发现模型在理解词语间的超类关系以及部分词语的绘制上存在局限性。

Oct, 2023

抽象概念的文本到图像生成

通过利用三层艺术理论的建议，我们提出了一种用于抽象概念的文本到图像生成的框架，该框架通过将抽象概念转化为明确的意图、从 LLMs 中提取的语义相关的物体和依赖于概念的形式来生成图像。人类评估结果和我们设计的概念评分指标的评价结果证明了我们的框架在表达抽象概念方面的有效性。

Sep, 2023