GenEval: 评估文本与图像对齐的对象为中心框架
使用文本到图像生成模型的自动化方法 SelfEval,可用于评估生成模型在多模态文本 - 图像辨别任务中的性能,并展示其与人工评估结果在文本忠实性上具有高度一致性。
Nov, 2023
近年来,文本到图像生成模型的发展取得了显著进展。我们提出了一种评估效率的方法,通过选择文本 - 图像数据集的代表性子集来改善模型评估过程。我们研究了设计选择,包括选择标准和选择粒度,并提出了一种名为 FlashEval 的迭代搜索算法。在 COCO 和 DiffusionDB 数据集上,我们证明了 FlashEval 在评估扩散模型方面的有效性。发布这些常用数据集的精简子集以促进扩散算法设计和评估,并开源 FlashEval 作为未来数据集精简的工具。
Mar, 2024
本文提出了 EvalAlign,这是一种准确性、稳定性和细粒度特性突出的评估指标,通过利用在大规模数据集上进行预训练的多模式大型语言模型(MLLMs)的能力,通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令,进行生成图像的精确手动评分,使 MLLMs 与人类评估判断紧密对齐,得到了一个强大的评估模型。我们对 24 个文本 - 图像生成模型进行了全面的测试,结果表明 EvalAlign 不仅提供了更好的指标稳定性,而且比现有的指标更接近人类的偏好,从而验证了其在模型评估中的有效性和实用性。
Jun, 2024
本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法,用于评估和比较最新的文本到图片模型。实验结果表明,人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。
Dec, 2022
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型,评估生成图像的视觉吸引力,并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性,而公平性分析则揭示了模型输出中的偏见,特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础,但这种双重面向的方法被设计成具有灵活性,可以应用于其他形式的图像生成,增强我们对生成模型的理解,并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码,用于评估生成模型的数据以及标注有有缺陷区域的数据集。
Mar, 2024
对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查,提出 PaintSkills 工具集进行测量评估,发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距,并且其在性别和肤色方面的偏见对其表现产生了影响。
Feb, 2022
本文旨在提出一种规范化和明确定义的人工评估协议,以促进未来作品中可验证和可重复的人工评估,针对 37 篇最近论文调查显示,许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估,同时,作者还提供了设计可靠和决定性人工评估实验所需的见解,并向社区提供了几个公开的资源以促进快速实现。
Apr, 2023
对于图像和语言生成模型的视觉和语言生成模型,我们提出了一种新的框架和流程来彻底评估生成视频的性能,并通过系数对齐目标度量与用户意见,以获得模型的最终排行榜。
Oct, 2023
我们介绍了 InterleavedBench 作为第一个精心策划的用于评估混合文本图像生成的基准,并引入了使用 GPT-4o 提供准确且可解释的评估的强无参考度量 InterleavedEval。通过广泛的实验和严格的人工评估,我们表明我们的基准和度量可以有效评估现有模型,并与以前的基于参考的度量具有较强的相关性。
Jun, 2024
本文提出了两个基于语言模型的可解释 / 可解释的视觉编程框架,用于文本到图像的生成和评估。其中,VPGen 将 T2I 生成拆分成三个步骤,使用 LM 控制前两个步骤,并提供更强的空间控制;VPEval 是一个解释性和可解释性评估框架,基于视觉编程,能够提供针对技能特定和开放性提示的人类相关性评估。
May, 2023