纵观文本和图像生成的整体评估

Jun, 2024

Holistic Evaluation for Interleaved Text-and-Image Generation

Minqian Liu, Zhiyang Xu, Zihao Lin, Trevor Ashby, Joy Rimchala...

TL;DR我们介绍了 InterleavedBench 作为第一个精心策划的用于评估混合文本图像生成的基准，并引入了使用 GPT-4o 提供准确且可解释的评估的强无参考度量 InterleavedEval。通过广泛的实验和严格的人工评估，我们表明我们的基准和度量可以有效评估现有模型，并与以前的基于参考的度量具有较强的相关性。

Abstract

interleaved text-and-image generation has been an intriguing research direction, where the models are required to generate both images and text pieces in an arbitrary order. Despite the emerging advancements in interleaved generation, the progress in its evaluation still significantly

interleaved text-and-image generation evaluation benchmarks interleavedbench interleavedeval interleaved generation

发现论文，激发创造

OpenLEAF: 开放领域的图文交替生成与评估

这项工作研究了一项名为开放域交错图像 - 文本生成的挑战性任务，该任务根据输入查询生成交错的文本和图像。我们提出了一种新的基于大型语言模型（LLMs）和预训练的文本到图像模型（T2I）的交错生成框架，即 OpenLEAF。在 OpenLEAF 中，LLM 生成文本描述，协调 T2I 模型，创建用于生成图像的视觉提示，并将全局上下文融入到 T2I 模型中。这种全局上下文提高了交错生成中图像的实体和风格的一致性。我们首先提出使用大型多模态模型（LMMs）来评估开放域交错图像 - 文本序列的实体和风格的一致性。根据 LMM 在我们构建的评估集上的评估，所提出的交错生成框架可以为各种领域和应用生成高质量的图像 - 文本内容，例如如何问答、叙事、图形故事改写以及网页 / 海报生成任务。此外，我们通过人类评估验证了所提出的 LMM 评估技术的有效性。我们希望我们提出的框架、基准和 LMM 评估能够帮助建立有趣的交错图像 - 文本生成任务。

Oct, 2023

MM-Interleaved: 多模态特征同步器下的图像与文本交错生成建模

该论文提出了 MM-Interleaved 模型，一种用于交替图像 - 文本数据的端到端生成模型，通过引入多尺度和多图像特征同步器模块，在生成过程中直接访问上下文中的细粒度图像特征，从而增强模型在识别视觉细节、遵循多模态指令和生成一致图像方面的能力。

Jan, 2024

文本到图像模型的整体评估

对于最近的文本到图像模型，我们缺乏对其能力和风险的全面定量理解。为了填补这个空白，我们引入了一个新的基准，即文本到图像模型的整体评估（HEIM）。我们鉴定了 12 个方面，包括文本与图像的对齐、图像质量、美感、原创性、推理能力、知识、偏见、毒性、公平性、鲁棒性、多语性和效率。我们在这个基准上评估了 26 个最先进的文本到图像模型，结果表明没有单一模型在所有方面都表现出色，不同模型展示了不同的优势。我们透明地发布了生成的图像和人工评估结果。

Nov, 2023

评估文本到图像合成：图像质量指标的调查和分类

最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐，研究人员开发了新的评估指标，通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标，并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集，并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后，我们提出了改进文本到图像评估的准则，并讨论了目前的挑战和限制。

Mar, 2024

优化文本到图像生成：走向准确、无需训练的字形增强图像生成

改进了 LenCom-Eval 和 MARIO-Eval 基准测试的 OCR 效果的训练自由框架，提供了生成包含长且少见文本序列图像的新方法。

Mar, 2024

VEGA：学习视觉语言大模型中交错的图像文本理解

通过引入新的任务 Interleaved Image-Text Comprehension (IITC) 及其相关的 VEGA 数据集和 Image-Text Association（ITA）子任务，我们在多模态大模型（MLLMs）上建立了一个坚实的基线，实现了 85.8％的图像关联准确率和 0.508 的 Rouge 分数，结果验证了我们的数据集在提高 MLLMs 对复杂图文理解能力方面的有效性。

Jun, 2024

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

TeTIm-Eval：一个用于比较文本到图像模型的新型策划评估数据集

本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法，用于评估和比较最新的文本到图片模型。实验结果表明，人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。

Dec, 2022

AIGCBench：AI 生成的图像到视频内容的综合评估

人工智能生成内容（AIGC）领域迅速发展，本研究介绍了 AIGCBench，一个全面且可扩展的基准测试，旨在评估各种视频生成任务，主要集中在图像到视频（I2V）生成上。

Jan, 2024