PhyBench:用于评估文本到图像模型的物理常识基准
我们提出了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力,我们将其称为常识 - T2I。给定两个对抗性的文本提示,其中包含一组相同的动作词但存在细微差异,例如 “没有电的灯泡” 与 “有电的灯泡”,我们评估 T2I 模型是否能进行视觉常识推理,即生成与 “灯泡未点亮” 和 “灯泡点亮” 相符的图像。常识 - T2I 提出了一个对抗性挑战,提供成对的文本提示和预期输出。该数据集由专家精心策划,并用细粒度标签进行注释,例如常识类型和预期输出的可能性,以帮助分析模型行为。我们对各种最先进的 T2I 模型进行了评测,令人惊讶的发现,图像合成与真实生活照片之间仍存在很大差距 —— 即使是 DALL-E 3 模型在常识 - T2I 上的准确率也仅为 48.92%,稳定的扩散 XL 模型仅能达到 24.92%的准确率。我们的实验证明 GPT 强化的提示无法解决这一挑战,并对可能导致此类不足的原因进行了详细分析。我们的目标是将常识 - T2I 作为 T2I 常识检查的高质量评估基准,促进实际生活图像生成的进展。
Jun, 2024
通过创建一个基准测试集 VideoPhy,我们评估了现有的文本到视频生成模型是否能符合真实世界活动的物理常识,结果显示这些模型缺乏生成符合文字提示和物理规律视频的能力,从而揭示了视频生成模型远未准确模拟物理世界的程度。
Jun, 2024
本研究提出了 T2I-CompBench,这是一个全面的开放式文本成像生成基准测试,包括 6000 个组合文本提示,分为 3 个类别和 6 个子类别,并介绍了几个特定设计的评估度量标准,以评估组合文本到图像生成的效果,并提出了新的生成模型细调和奖励驱动的样本选择(GORS)方法来提高预训练文本到图像模型的组合文本到图像生成能力。
Jul, 2023
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了 3,600 个评分。
Nov, 2022
本文提出了一个全面、可靠和可扩展的 Text-to-Image 模型评估基准 HRS-Bench,它涵盖了 13 种技能和 50 种情境,旨在促进未来文本到图像生成研究的发展。通过使用广泛的度量标准对 9 个最新的大规模 T2I 模型进行评估,实验结果表明现有模型在生成具有期望数量的对象、视觉文本或基础情感方面存在问题。
Apr, 2023
Winoground-T2I 是一个用于评估 T2I 模型组成性的基准,通过包含 11K 个复杂、高质量的对比句对来进行评估,通过比较性句对来评估各种指标的可靠性,最后提供了关于指标的优点和缺点以及当前 T2I 模型在应对复杂组成类别挑战中的能力,该基准公开提供。
Dec, 2023
通过 FAIntbench 这一整体且精确的基准,在四个维度上评估了最近七个大规模的 T2I 模型的偏见以及其可见性、获取属性和保护属性,并对其进行了人工评估,证明了 FAIntbench 在识别各种偏见方面的有效性,还揭示了关于偏见的新研究问题,包括蒸馏的副作用。该研究的初步发现凸显了 FAIntbench 在推动未来的研究中减少 T2I 模型偏见方面的潜力,我们的基准系统已公开可用以确保可重现性。
May, 2024
我们通过对自动评价度量和人类模板进行广泛研究,介绍了一种综合的基于技能的基准,收集了超过 100,000 个注释,并引入了一种新的基于问答的自动评价度量,以在各种人类模板和 TIFA160 上更好地与人类评分相关联。
Apr, 2024
当前的文本生成 3D 方法在建模 NeRF 时使用了预训练扩散模型,能够生成高质量的 3D 场景。本文介绍了 T^3Bench,第一个包含不同复杂级别的文本提示的全面的文本生成 3D 基准测试。我们提出了基于多视角图像和文本内容的两个自动度量标准来评估主观质量和文本与 3D 的一致性。基准测试结果显示了六种主流文本生成 3D 方法之间的性能差异,并凸显了当前方法在生成环境和多物体场景以及利用 2D 指导进行 3D 生成方面的共同困难。
Oct, 2023
我们介绍了 DEsignBench,一个针对视觉设计场景量身定制的文本到图像(T2I)生成基准。我们通过 DEsignBench 评估 DALL-E 3 和其他领先的 T2I 模型,开发了一种全面的可视化展示,用于侧边比较不同模型的生成图像。除了人工评估外,我们还引入了第一个由 GPT-4V 提供支持的自动图像生成评估器。
Oct, 2023