推动文本到图像模型评估中的地理包容性

May, 2024

推动文本到图像模型评估中的地理包容性

Towards Geographic Inclusion in the Evaluation of Text-to-Image Models

Melissa Hall, Samuel J. Bell, Candace Ross, Adina Williams, Michal Drozdzal...

TL;DR通过进行大规模的跨文化研究，我们发现不同地理位置的人对地理表达、视觉吸引力和一致性的偏好存在显著差异，并且目前常用的自动评估指标不能充分考虑这种多样性。我们建议改进自动和人工评估方法。

Abstract

Rapid progress in text-to-image generative models coupled with their deployment for visual content creation has magnified the importance of thoroughly evaluating their performance and identifying potential biases. In pursuit of models that generate images that are realistic, diverse, v

text-to-image generative models automated metrics geographic representation visual appeal human evaluations

发现论文，激发创造

评估图像生成中的地理多样性差异

通过引入三个指标，我们评估了文本到图像生成系统在生成全球各地对象时的真实性、多样性和提示生成的一致性，分析了当前最先进的视觉内容生成系统中可能存在的地理偏见，并发现：（1）在提示生成非洲和西亚的对象时，模型的真实性和生成多样性较欧洲较低，（2）使用地理信息作为提示对生成的图片的一致性和多样性具有一定的负面影响，以及（3）在一些对象上，模型存在更多的区域级差异。引入这些指标是确保每个人在视觉内容创建中有积极体验的关键步骤。

Aug, 2023

Flickr 非洲：大规模人类中心的视觉数据中的地理多样性研究

通过对非洲国家的地理标记的 Flickr 图像进行大规模分析，研究表明标准的互联网数据收集方法在低收入和中等收入国家存在局限性，需要进一步努力来捕捉非洲人和他们环境的图像数据，以改善计算机视觉模型在全球范围内的适用性。

Aug, 2023

检验文图生成模型图像地理代表性

本文中，我们采用众包研究来衡量使用 DALL.E 2 和 Stable Diffusion 模型对普通名词进行生成时，生成图像对全球各地表现力的代表性。我们发现，对于没有特定国名的输入，生成的图像表现美国和印度的环境最好，其他国家的表现不如其它的。如果在输入中指定国家名称，则 DALL.E 2 的表现提升了 1.44 分，Stable Diffusion 的表现提升了 0.75 分，但许多国家的总体得分仍然很低，需要未来的模型在地理上更加包容。最后，我们研究了在不进行用户研究的情况下量化生成图像在地理上的代表性的可行性。

May, 2023

面向可验证和可重复的文本到图像生成的人类评估

本文旨在提出一种规范化和明确定义的人工评估协议，以促进未来作品中可验证和可重复的人工评估，针对 37 篇最近论文调查显示，许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估，同时，作者还提供了设计可靠和决定性人工评估实验所需的见解，并向社区提供了几个公开的资源以促进快速实现。

Apr, 2023

使用 Gecko 重新审视文本到图像评估：关于指标、提示和人类评级

我们通过对自动评价度量和人类模板进行广泛研究，介绍了一种综合的基于技能的基准，收集了超过 100,000 个注释，并引入了一种新的基于问答的自动评价度量，以在各种人类模板和 TIFA160 上更好地与人类评分相关联。

Apr, 2024

文本到图像模型中的性别呈现差异审计

本文提出了一种利用细粒度的自我表达属性研究文本到图像模型中不同性别呈现的范式（称为 Gender Presentation Differences 或 GPD），并通过人工注释量化性别指示符在输入文本中的频率差异并引入了一种新颖的指标：GEP，同时我们还提出了一种自动估计这种差异的方法。自动 GEP 指标基于我们的方法得出的相关性比基于现有 CLIP 得分的相关性更高，无论对于三个最先进的文本到图像模型如何一致，最后，在职业性别成见的背景下，我们展示了我们度量的普遍适用性。

Feb, 2023

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

文本到图像生成中的偏见调查：定义、评估和缓解

通过对 T2I（Text-to-Image）生成模型中的偏见进行研究调查，揭示了存在的社会偏见对少数群体的边缘化造成的影响，并指出在研究中存在的限制和未来的研究方向。

Apr, 2024

超越表面：文本到图像生成中的全球尺度视觉刻板分析

通过使用现有的文字资源来评估 T2I 模型生成的图像中的地缘文化刻板印象，我们的研究表明在与其他属性相比，特定身份群体的图像中刻板印象出现的可能性是其他属性的三倍，并揭示出所有身份群体的默认代表都具有刻板印象的外观。

Jan, 2024

关于图像标注中的多样性：如何像人类一样描述

本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Mar, 2019