ITI-GEN:包容性文本到图像生成
我们提出了一种通用方法,通过反事实推理来研究和量化任何文本到图像生成模型和任何提示的广泛偏见和偏差,并以语义概念的形式扩展了定量评分。
Dec, 2023
本文通过对两个流行的 T2I 模型(DALLE-v2 和 Stable Diffusion)进行广泛的自动化和人工评估实验,专注于反映出的性别、年龄、种族和地理位置之间的职业,人格特征和日常情况的生成图像,研究和量化常见的社会偏见。我们的研究结果表明,这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差,但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。
Mar, 2023
通过在输入提示中添加伦理干预来支持公平判断,我们研究了文本描述生成模型在生成图像时对特定社会群体的偏好,并使用 ENTIGEN 数据集评估伦理干预对图像生成的影响。我们发现,使用 ENTIGEN 框架生成的图像涵盖了不同的社会群体,并在保持图像质量的同时避免了社会偏见,并发现特定短语在伦理干预中的使用会触发模型预测的大幅变化。
Oct, 2022
通过学习自适应的包容性标记,我们提出了一种方法来消除生成模型中出现的陈词滥调偏见,该方法无需明确的属性规范或先验知识。具体而言,我们的方法使用轻量级自适应映射网络定制包容性标记以消除待消除概念的偏见,并通过锚定损失使用少量平衡与包容性样本来调整自适应映射网络,从而使这些标记对于原始偏见分布无论概念是否为已知概念都能推广。实验结果表明,我们的方法在不需要属性规范的情况下优于先前的偏见缓解方法,并保持了生成结果与文本描述之间的对应关系。此外,我们的方法在消除文本到图像生成中的陈词滥调偏见方面具有与需要特定属性或编辑指令的模型相当的性能。大量实验证明了我们自适应包容性标记在消除文本到图像生成中的陈词滥调偏见方面的有效性。
Jun, 2024
通过对 T2I(Text-to-Image)生成模型中的偏见进行研究调查,揭示了存在的社会偏见对少数群体的边缘化造成的影响,并指出在研究中存在的限制和未来的研究方向。
Apr, 2024
论文理论分析了合成数据的训练效果和提示诱导的合成数据分布之间的关系,并相应地提出了一种简单而有效的方法,通过图像字幕和类名来提示生成模型,从而合成更具信息性和多样性的训练数据。实验证明,该方法显着提高了在合成训练数据上训练的模型的表现。
Jul, 2023
通过利用大型语言模型,在文本到图像的生成模型中改善提示 - 图像的一致性,我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度,为构建可靠且强大的文本到图像模型铺平了道路。
Mar, 2024
本论文介绍了一种 Prompt Expansion 框架,它帮助用户生成高质量多样化的图像,通过优化扩展了的文本提示,以便生成更吸引人的图像,并通过人类评估研究证明,使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。
Dec, 2023
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型,评估生成图像的视觉吸引力,并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性,而公平性分析则揭示了模型输出中的偏见,特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础,但这种双重面向的方法被设计成具有灵活性,可以应用于其他形式的图像生成,增强我们对生成模型的理解,并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码,用于评估生成模型的数据以及标注有有缺陷区域的数据集。
Mar, 2024