多任务基准测试中文本至图像模型的人类评估
本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法,用于评估和比较最新的文本到图片模型。实验结果表明,人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。
Dec, 2022
对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查,提出 PaintSkills 工具集进行测量评估,发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距,并且其在性别和肤色方面的偏见对其表现产生了影响。
Feb, 2022
人工智能内容生成的革命已经通过快速发展的文本到图像(T2I)扩散模型得到了加速。本研究中,我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统,并引入新的任务 —— 交互式文本到图像(iT2I),人们可以与 LLM(语言模型)进行交互,以生成、编辑、精炼高质量图片,并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型,我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs(如 ChatGPT、LLAMA、Baichuan 和 InternLM)下在多种常见场景中评估了我们的方法,证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能,同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注,并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。
Oct, 2023
对于最近的文本到图像模型,我们缺乏对其能力和风险的全面定量理解。为了填补这个空白,我们引入了一个新的基准,即文本到图像模型的整体评估(HEIM)。我们鉴定了 12 个方面,包括文本与图像的对齐、图像质量、美感、原创性、推理能力、知识、偏见、毒性、公平性、鲁棒性、多语性和效率。我们在这个基准上评估了 26 个最先进的文本到图像模型,结果表明没有单一模型在所有方面都表现出色,不同模型展示了不同的优势。我们透明地发布了生成的图像和人工评估结果。
Nov, 2023
我们介绍了 DEsignBench,一个针对视觉设计场景量身定制的文本到图像(T2I)生成基准。我们通过 DEsignBench 评估 DALL-E 3 和其他领先的 T2I 模型,开发了一种全面的可视化展示,用于侧边比较不同模型的生成图像。除了人工评估外,我们还引入了第一个由 GPT-4V 提供支持的自动图像生成评估器。
Oct, 2023
当前的文本生成 3D 方法在建模 NeRF 时使用了预训练扩散模型,能够生成高质量的 3D 场景。本文介绍了 T^3Bench,第一个包含不同复杂级别的文本提示的全面的文本生成 3D 基准测试。我们提出了基于多视角图像和文本内容的两个自动度量标准来评估主观质量和文本与 3D 的一致性。基准测试结果显示了六种主流文本生成 3D 方法之间的性能差异,并凸显了当前方法在生成环境和多物体场景以及利用 2D 指导进行 3D 生成方面的共同困难。
Oct, 2023
文本到图像(T2I)生成中的一个挑战是训练数据中存在的文化差距意外反映,当输入文本的文化要素在训练集中很少收集时,这意味着生成的图像质量的不一致性;为了弥合差距,我们提出了一个全面评估标准的具有挑战性的跨文化(C3)基准,用于评估模型生成跨文化图像的适应性;通过分析 C3 基准上 Stable Diffusion 模型生成的有缺陷图像,我们发现模型常常无法生成某些文化对象;因此,我们提出一种新颖的多模态度量,考虑了对象与文本的对齐,用于筛选目标文化中的微调数据,以改进跨文化生成的 T2I 模型;实验结果表明,我们的多模态度量在 C3 基准上提供了比现有度量更强的数据选择性能,其中对象和文本的对齐至关重要;我们发布了基准,数据,代码和生成的图像,以促进未来在文化多样化的 T2I 生成方面的研究。
Jul, 2023
本文通过对两个流行的 T2I 模型(DALLE-v2 和 Stable Diffusion)进行广泛的自动化和人工评估实验,专注于反映出的性别、年龄、种族和地理位置之间的职业,人格特征和日常情况的生成图像,研究和量化常见的社会偏见。我们的研究结果表明,这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差,但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。
Mar, 2023
本文旨在提出一种规范化和明确定义的人工评估协议,以促进未来作品中可验证和可重复的人工评估,针对 37 篇最近论文调查显示,许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估,同时,作者还提供了设计可靠和决定性人工评估实验所需的见解,并向社区提供了几个公开的资源以促进快速实现。
Apr, 2023