TeTIm-Eval：一个用于比较文本到图像模型的新型策划评估数据集

Dec, 2022

TeTIm-Eval：一个用于比较文本到图像模型的新型策划评估数据集

TeTIm-Eval: a novel curated evaluation data set for comparing text-to-image models

Federico A. Galatolo, Mario G. C. A. Cimino, Edoardo Cogotti

TL;DR本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法，用于评估和比较最新的文本到图片模型。实验结果表明，人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。

Abstract

Evaluating and comparing text-to-image models is a challenging problem. Significant advances in the field have recently been made, piquing interest of various industrial sectors. As a consequence, a gold standard in the field should cover a variety of tasks and application contexts. In

text-to-image models evaluation approach clip-score human judgement image-text dataset

发现论文，激发创造

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

优化文本到图像生成：走向准确、无需训练的字形增强图像生成

改进了 LenCom-Eval 和 MARIO-Eval 基准测试的 OCR 效果的训练自由框架，提供了生成包含长且少见文本序列图像的新方法。

Mar, 2024

ConceptBed: 评估文本到图像扩散模型的概念学习能力

为了定量衡量 T2I 模型在学习和合成新型视觉概念的能力，该论文提出了一个大规模数据集 ConceptBed 和一个新的评估指标 Concept Confidence Deviation (CCD)，作者评估了对象、属性、样式及四种组合性维度，研究发现概念学习和保持组合性之间存在权衡。

Jun, 2023

FlashEval：面向快速准确的文本到图像扩散生成模型评估

近年来，文本到图像生成模型的发展取得了显著进展。我们提出了一种评估效率的方法，通过选择文本 - 图像数据集的代表性子集来改善模型评估过程。我们研究了设计选择，包括选择标准和选择粒度，并提出了一种名为 FlashEval 的迭代搜索算法。在 COCO 和 DiffusionDB 数据集上，我们证明了 FlashEval 在评估扩散模型方面的有效性。发布这些常用数据集的精简子集以促进扩散算法设计和评估，并开源 FlashEval 作为未来数据集精简的工具。

Mar, 2024

文本到图像模型的整体评估

对于最近的文本到图像模型，我们缺乏对其能力和风险的全面定量理解。为了填补这个空白，我们引入了一个新的基准，即文本到图像模型的整体评估（HEIM）。我们鉴定了 12 个方面，包括文本与图像的对齐、图像质量、美感、原创性、推理能力、知识、偏见、毒性、公平性、鲁棒性、多语性和效率。我们在这个基准上评估了 26 个最先进的文本到图像模型，结果表明没有单一模型在所有方面都表现出色，不同模型展示了不同的优势。我们透明地发布了生成的图像和人工评估结果。

Nov, 2023

GenEval: 评估文本与图像对齐的对象为中心框架

通过 GenEval 评估框架，我们展示了当前目标检测模型可用于评估各种生成任务的文本到图像模型，并分析其生成能力。我们发现最近的模型在这些任务上有显著改进，但在空间关系和属性绑定等复杂能力方面仍有缺失。最后，我们展示了如何使用 GenEval 来发现现有的失败模式，以促进下一代文本到图像模型的发展。

Oct, 2023

EditVal: 基于扩散的文本引导图像编辑方法的基准测试

通过引入 EditVal，这是一个标准化的用于定量评估文本引导的图像编辑方法的基准测试，本研究对 8 种前沿扩散编辑方法进行了基准测试，发现 Instruct-Pix2Pix 和 Null-Text 的性能最好且能保持原始图像特性，而大多数编辑方法在空间操作方面失败，没有一个单独在各种编辑类型上排名最佳的方法。希望我们的基准测试能为未来开发更可靠的文本引导图像编辑工具铺平道路。

Oct, 2023

评估文本到图像合成：图像质量指标的调查和分类

最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐，研究人员开发了新的评估指标，通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标，并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集，并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后，我们提出了改进文本到图像评估的准则，并讨论了目前的挑战和限制。

Mar, 2024

划分、评估与改进：基于迭代 VQA 反馈的文本到图像对齐的评估和改进

通过分解式对齐评估和改进文本到图像的对齐效果，并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明，这种对齐度指标与人类评分高度相关，并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明，该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。

Jul, 2023