使用 Gecko 重新审视文本到图像评估：关于指标、提示和人类评级

Apr, 2024

使用 Gecko 重新审视文本到图像评估：关于指标、提示和人类评级

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang...

TL;DR我们通过对自动评价度量和人类模板进行广泛研究，介绍了一种综合的基于技能的基准，收集了超过 100,000 个注释，并引入了一种新的基于问答的自动评价度量，以在各种人类模板和 TIFA160 上更好地与人类评分相关联。

Abstract

While text-to-image (T2I) generative models have become ubiquitous, they do not necessarily generate images that align with a given prompt. While previous work has evaluated T2I alignment by proposing metrics, benchmarks, and templates for collecting human judgements, the quality of th

t2i generative models alignment auto-eval metrics human templates ambiguity

发现论文，激发创造

文本到图像生成对齐度评估度量 TIAM

通过针对 prompt 模板的新度量方法，本文对多种 Text-to-Image（T2I）模型的对齐性进行了研究，并发现潜在噪声和提示概念数量、顺序和属性等因素对图像生成的影响。

Jul, 2023

谁来评估评估？用 T2IScoreScore（TS2）客观评分文本与图像提示一致性指标

对文本到图像模型中的提示准确性进行基准测试，比较评估了多种提示信实度度量，发现当前的视觉语言模型基于向量的度量无法在许多困难的 T2I 模型错误情况下显着优于基于特征的度量。介绍了一套语义错误图形，TS2，用于严格判断给定的提示信实度度量指标是否能够正确地对图像进行排序和区分不同的错误节点，以期通过客观的准则更严格地比较和发展更好的 T2I 期望提示信实度度量指标。

Apr, 2024

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

基于隐式提示的文本到图像模型的研究

最近的文本到图像（T2I）模型取得了巨大的成功，并提出了许多基准来评估其性能和安全性。然而，它们只考虑了显性提示而忽视了隐性提示（暗示目标而没有明确提及）。这些提示可能摆脱安全约束，并对这些模型的应用构成潜在威胁。本文强调了 T2I 模型在隐性提示方面的现状，提出了一个名为 ImplicitBench 的基准，并对隐性提示对流行的 T2I 模型的性能和影响进行了调查。具体而言，我们设计并收集了三个方面的 2,000 多个隐性提示：一般符号、名人隐私和不适宜工作（NSFW）问题，并评估了六个知名 T2I 模型在这些隐性提示下的能力。实验结果表明：（1）T2I 模型能够准确地创建由隐性提示指示的各种目标符号；（2）隐性提示给 T2I 模型带来隐私泄露的潜在风险；（3）大多数评估的 T2I 模型中的 NSFW 约束可以通过隐性提示绕过。我们呼吁 T2I 社区更加关注隐性提示的潜力和风险，并进一步调查隐性提示的能力和影响，倡导一种平衡的方法，既发挥其益处又减轻其风险。

Mar, 2024

通过自动提示优化提升文本到图像的一致性

通过利用大型语言模型，在文本到图像的生成模型中改善提示 - 图像的一致性，我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度，为构建可靠且强大的文本到图像模型铺平了道路。

Mar, 2024

PQPP: 文本到图像提示和查询性能预测的联合基准

基于人工判断，我们引入了第一个在图像生成性能方面手动标注的提示数据集，并且在图像检索中收集了手动标注的检索结果，从而确定相同提示在图像生成和图像检索中的困难程度。我们提出了第一个综合评估图像生成和图像检索中提示 / 查询性能困难程度的基准，包括 10K 个查询。通过各种预生成 / 检索和后生成 / 检索性能预测器的结果，为未来研究提供了竞争基准。

Jun, 2024

衡量文本 - 视频模型输出的质量：指标和数据集

我们评估了常用质量度量，比较它们与人工评估在包含 1000 多个生成的 T2V 视频的数据集上的表现。结论是，在评估 T2V 模型输出时，自然性和语义匹配是重要因素，但没有一种单一度量可以捕捉这些微妙之处。

Sep, 2023

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

文本到图像模型的最佳提示及其发现方法

本研究使用基因算法，结合人类反馈，学习组合最有用的提示关键字，以改善使用描述生成艺术图像的美感。

Sep, 2022

推动文本到图像模型评估中的地理包容性

通过进行大规模的跨文化研究，我们发现不同地理位置的人对地理表达、视觉吸引力和一致性的偏好存在显著差异，并且目前常用的自动评估指标不能充分考虑这种多样性。我们建议改进自动和人工评估方法。

May, 2024