多任务基准测试中文本至图像模型的人类评估

Nov, 2022

多任务基准测试中文本至图像模型的人类评估

Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark

Vitali Petsiuk, Alexander E. Siemenn, Saisamrit Surbehera, Zad Chin, Keith Tyser...

TL;DR我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Abstract

We provide a new multi-task benchmark for evaluating text-to-image models. We perform a human evaluation comparing the most common open-so

text-to-image models benchmark computer vision machine learning human evaluation

发现论文，激发创造

TeTIm-Eval：一个用于比较文本到图像模型的新型策划评估数据集

本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法，用于评估和比较最新的文本到图片模型。实验结果表明，人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。

Dec, 2022

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

DALL-Eval: 探测文本到图像生成模型的推理能力与社会偏见

对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查，提出 PaintSkills 工具集进行测量评估，发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距，并且其在性别和肤色方面的偏见对其表现产生了影响。

Feb, 2022

使用 Gecko 重新审视文本到图像评估：关于指标、提示和人类评级

我们通过对自动评价度量和人类模板进行广泛研究，介绍了一种综合的基于技能的基准，收集了超过 100,000 个注释，并引入了一种新的基于问答的自动评价度量，以在各种人类模板和 TIFA160 上更好地与人类评分相关联。

Apr, 2024

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

文本到图像模型的整体评估

对于最近的文本到图像模型，我们缺乏对其能力和风险的全面定量理解。为了填补这个空白，我们引入了一个新的基准，即文本到图像模型的整体评估（HEIM）。我们鉴定了 12 个方面，包括文本与图像的对齐、图像质量、美感、原创性、推理能力、知识、偏见、毒性、公平性、鲁棒性、多语性和效率。我们在这个基准上评估了 26 个最先进的文本到图像模型，结果表明没有单一模型在所有方面都表现出色，不同模型展示了不同的优势。我们透明地发布了生成的图像和人工评估结果。

Nov, 2023

DEsignBench：DALL-E 3 探索和基准测试想象视觉设计

我们介绍了 DEsignBench，一个针对视觉设计场景量身定制的文本到图像（T2I）生成基准。我们通过 DEsignBench 评估 DALL-E 3 和其他领先的 T2I 模型，开发了一种全面的可视化展示，用于侧边比较不同模型的生成图像。除了人工评估外，我们还引入了第一个由 GPT-4V 提供支持的自动图像生成评估器。

Oct, 2023

T$^3$Bench: 文本到 3D 生成的当前进展基准测试

当前的文本生成 3D 方法在建模 NeRF 时使用了预训练扩散模型，能够生成高质量的 3D 场景。本文介绍了 T^3Bench，第一个包含不同复杂级别的文本提示的全面的文本生成 3D 基准测试。我们提出了基于多视角图像和文本内容的两个自动度量标准来评估主观质量和文本与 3D 的一致性。基准测试结果显示了六种主流文本生成 3D 方法之间的性能差异，并凸显了当前方法在生成环境和多物体场景以及利用 2D 指导进行 3D 生成方面的共同困难。

Oct, 2023

关于文本到图像生成中的文化差异

文本到图像（T2I）生成中的一个挑战是训练数据中存在的文化差距意外反映，当输入文本的文化要素在训练集中很少收集时，这意味着生成的图像质量的不一致性；为了弥合差距，我们提出了一个全面评估标准的具有挑战性的跨文化（C3）基准，用于评估模型生成跨文化图像的适应性；通过分析 C3 基准上 Stable Diffusion 模型生成的有缺陷图像，我们发现模型常常无法生成某些文化对象；因此，我们提出一种新颖的多模态度量，考虑了对象与文本的对齐，用于筛选目标文化中的微调数据，以改进跨文化生成的 T2I 模型；实验结果表明，我们的多模态度量在 C3 基准上提供了比现有度量更强的数据选择性能，其中对象和文本的对齐至关重要；我们发布了基准，数据，代码和生成的图像，以促进未来在文化多样化的 T2I 生成方面的研究。

Jul, 2023

优化文本到图像生成：走向准确、无需训练的字形增强图像生成

改进了 LenCom-Eval 和 MARIO-Eval 基准测试的 OCR 效果的训练自由框架，提供了生成包含长且少见文本序列图像的新方法。

Mar, 2024