通过模型生成的图像满意度的动机背景的视角理解主观性

Feb, 2024

通过模型生成的图像满意度的动机背景的视角理解主观性

Understanding Subjectivity through the Lens of Motivational Context in Model-Generated Image Satisfaction

Senjuti Dutta, Sherol Chen, Sunny Mak, Amnah Ahmad, Katherine Collins...

TL;DR图像生成模型在各种应用中变得普遍。这些模型通常通过使用假设普遍标准的人类质量判断进行微调和评估，而未考虑任务的主观性。为了研究如何量化主观性及其影响的规模，我们测量了不同使用情况下人类标注者之间的评估差异。通过模拟标注者主观性的潜在因素，我们设计了一组任务（T 恤图形、演示文稿视觉效果和手机背景图像），以从上下文中分析众包任务。研究结果表明，在个别情境和组合情境下，对图像的人工评估存在差异。图像外观、与文本的对齐以及文本中提到的对象的表达是影响这种主观性的三个关键因素。我们的研究强调了在构建和评估生成模型时考虑个别用户和情境的重要性。

Abstract

image generation models are poised to become ubiquitous in a range of applications. These models are often fine-tuned and evaluated using human quality judgments that assume a universal standard, failing to consider the

image generation models subjectivity human evaluations individual contexts generative models

发现论文，激发创造

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

推动文本到图像模型评估中的地理包容性

通过进行大规模的跨文化研究，我们发现不同地理位置的人对地理表达、视觉吸引力和一致性的偏好存在显著差异，并且目前常用的自动评估指标不能充分考虑这种多样性。我们建议改进自动和人工评估方法。

May, 2024

将主观众评估作为改进自然语言生成的附加客观标准的估计

本文探讨在多任务学习设置中，使用主观评估作为语言生成模型训练的一部分，并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示，多任务学习的模型生成的话语在主观上评分最高，且在推动对话发展、无冒犯性等方面得分最高。因此，将来可以研究将主观人类评估纳入语言生成模型训练中，从而在开发过程中更好地与人类用户进行交互。

Apr, 2021

基于人类第一印象的主观面部转换

使用生成模型找到脸部图像中感知属性的语义编辑，综合考虑保持身份和改变感知属性之间的权衡，以改变脸部图像中的任何输入脸沿属性轴的转换。通过预测模型和人类评分，在真实和合成脸上进行培训和评估，证明了我们方法的普适性，最终可用于理解和解释与身份无关的对面部主观解释中的偏见。

Sep, 2023

量化文本到图像生成模型中的偏差

对比四种最新的文本到图像生成模型的基准偏差特征与各自变体，在社会偏见和一般偏见方面提出了三种评估方法，并将该方法应用于字幕图像数据集以衡量其偏见。

Dec, 2023

情感条件图像生成

本论文提出一种计算共创环境下生成图像的新方法，利用经过心理学验证的三元素方法来量化所需影响，通过训练神经网络以实现对文本和图像情感内容的估计，从而可对各种生成模型进行控制和影响。

Feb, 2023

文本图像生成模型的质量、偏差和性能分析

通过 qualitatively 评估精确生成人脸、群体和指定数量对象的图片，我们不仅检查了多个文本到图像模型的性能，还进行了社会偏见分析。我们发现，容量更大的模型生成的图片质量更高，但同时这些模型也存在固有的性别或社会偏见，从而更全面地了解了它们的影响和局限性。

Jun, 2024

ImagenHub：标准化条件图像生成模型的评估

条件图像生成的推理和评估存在巨大的不一致性。本文提出 ImagenHub，一个一站式库来标准化所有条件图像生成模型的推理和评估，并通过定义七个主要任务、构建统一的推理管道和设计两个人工评估指标来解决这个问题。

Oct, 2023

通过交互式视觉问题生成和回答定制图像叙述生成

本文提出了定制化的图像叙事生成任务，通过用户交互式参与生成过程，并尝试通过反复交互阶段来学习用户的兴趣，从而自动生成更广泛主题的多样化描述，同时可针对交互目标进行定制化。

Apr, 2018

面向可验证和可重复的文本到图像生成的人类评估

本文旨在提出一种规范化和明确定义的人工评估协议，以促进未来作品中可验证和可重复的人工评估，针对 37 篇最近论文调查显示，许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估，同时，作者还提供了设计可靠和决定性人工评估实验所需的见解，并向社区提供了几个公开的资源以促进快速实现。

Apr, 2023