寻找主观真相：为综合生成人工智能模型评估收集200万票数

Sep, 2024

寻找主观真相：为综合生成人工智能模型评估收集200万票数

Finding the Subjective Truth: Collecting 2 Million Votes for Comprehensive Gen-AI Model Evaluation

Dimitrios Christodoulou, Mads Kuhlmann-Jørgensen

TL;DR本研究解决了图像生成模型评估中的主观判断和人类偏好的问题，提出了一种利用Rapidata技术的高效注释框架，收集了来自全球多样化评审员的超过200万条注释。研究表明，这种方法可以全面排名图像生成模型，并大幅减少评估偏差风险。

Abstract

Efficiently evaluating the performance of text-to-image models is difficult as it inherently requires subjective judgment and human preference, making it hard to compare different models and quantify the state of the art. Leveraging Rapidata's technology, we present an efficient Annotation Fr

发现论文，激发创造

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了3,600个评分。

Nov, 2022

HRS-Bench: 文本到图像模型全面、可靠、可扩展的基准测试

本文提出了一个全面、可靠和可扩展的 Text-to-Image 模型评估基准 HRS-Bench，它涵盖了13种技能和50种情境，旨在促进未来文本到图像生成研究的发展。通过使用广泛的度量标准对9个最新的大规模T2I模型进行评估，实验结果表明现有模型在生成具有期望数量的对象、视觉文本或基础情感方面存在问题。

Apr, 2023

T2IAT：衡量文本到图像生成的情感色彩和模式偏见

本研究在探讨文本转图像生成模型领域的人类偏见及刻板印象问题，并为此提出了一种基于社会心理学中的隐性联系测验（Implicit Association Test）的文本到图像联系测试框架（Text-to-Image Association Test），通过实验验证模型在道德中性和民族刻板印象等各方面存在复杂的刻板印象行为。

Jun, 2023

人类喜好评分v2：用于评估文本到图像合成的人类喜好的可靠基准

本研究引入了人类喜好数据集v2 (HPD v2)和人类偏好评分模型v2 (HPS v2)，可更准确地评估基于文本的图像生成模型的质量，并建立了以HPS v2为基准的评估标准及基准模型。

Jun, 2023

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

使用Gecko重新审视文本到图像评估：关于指标、提示和人类评级

我们通过对自动评价度量和人类模板进行广泛研究，介绍了一种综合的基于技能的基准，收集了超过100,000个注释，并引入了一种新的基于问答的自动评价度量，以在各种人类模板和TIFA160上更好地与人类评分相关联。

Apr, 2024

GenAI Arena：生成模型的开放评估平台

通过开源平台GenAI-Arena和统计方法，该研究论文提出一种评估图像和视频生成模型的方法，以更准确地衡量模型性能，并发现现有的多模态模型在评估生成的视觉内容方面存在不足。

Jun, 2024

GenAI-Bench: 评估和改进文本到视觉生成能力

本文通过对GenAI-Bench上的人类评分进行广泛研究，评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能，并发现VQAScore比先前的评估指标（如CLIPScore）明显优于人类评分，而且VQAScore可以在黑盒的基础上通过简单地对候选图像进行排名（3到9张）从而显著提高生成速度，在需要高级视觉语言推理的复合提示下，VQAScore的排名效果比其他评分方法如PickScore、HPSv2和ImageReward提高2倍至3倍。

Jun, 2024

文本图像生成模型的质量、偏差和性能分析

通过 qualitatively 评估精确生成人脸、群体和指定数量对象的图片，我们不仅检查了多个文本到图像模型的性能，还进行了社会偏见分析。我们发现，容量更大的模型生成的图片质量更高，但同时这些模型也存在固有的性别或社会偏见，从而更全面地了解了它们的影响和局限性。

Jun, 2024