大规模文本图像模型中检测隐含刻板印象的语言代理

Oct, 2023

大规模文本图像模型中检测隐含刻板印象的语言代理

Language Agents for Detecting Implicit Stereotypes in Text-to-image Models at Scale

Qichao Wang, Tian Bian, Yian Yin, Tingyang Xu, Hong Cheng...

TL;DR这篇研究论文介绍了一种面向文本到图像模型的刻板印象检测的新型代理架构，并发现在个人特征、社会文化背景和犯罪相关方面存在严重的刻板印象。该论文还强调了在人工智能生成内容领域中解决潜在伦理风险的紧迫性。

Abstract

The recent surge in the research of diffusion models has accelerated the adoption of text-to-image models in various Artificial Intelligence Generated Content (AIGC) commercial products. While these exceptional A

diffusion models text-to-image models stereotype detection free-form detection tasks ethical risks

发现论文，激发创造

易于访问的文本到图像生成在大规模上放大人口统计的定型观念

研究表明，现在机器学习模型能够将用户写的文本描述转换成逼真的图像，并且这些模型现在可以在线使用，每天可生成数百万张图像。然而，我们发现这些模型放大了危险和复杂的刻板印象，并且这些放大的刻板印象难以预测，用户或模型所有者也难以减轻其影响。这些图像生成模型的大规模部署是否会延续和放大刻板印象，这是非常值得关注的问题。

Nov, 2022

面向大型语言模型的审计：提升基于文本的刻板印象检测

本研究介绍了一个多维度刻板印象数据集以及英文文本的新型刻板印象分类器，并通过多类别训练模型在多种可解释 AI 工具下展示出较好的性能，利用该模型评估了流行的 GPT 模型系列的刻板印象行为，并观察到刻板印象的减少，从而为 LLM 的刻板印象偏见审计和评估建立了一个稳健而实用的框架。

Nov, 2023

通过文本生成图像透视社交偏见

本文通过对两个流行的 T2I 模型（DALLE-v2 和 Stable Diffusion）进行广泛的自动化和人工评估实验，专注于反映出的性别、年龄、种族和地理位置之间的职业，人格特征和日常情况的生成图像，研究和量化常见的社会偏见。我们的研究结果表明，这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差，但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。

Mar, 2023

增强基于文本的刻板印象检测和基于探针的偏见评估的大型语言模型审计

大规模语言模型在人工智能应用领域有显著的进展，但存在刻板输出的问题。本研究介绍了多维度刻板模式数据集，探索了基于不同机器学习方法的刻板模式检测基线，通过调整语言模型架构和大小，构建了英文文本的一系列刻板模式分类器模型，并使用可解释性人工智能工具进行验证和分析。在生成文本任务中，使用优秀的刻板模式检测器评估了流行大规模语言模型的刻板模式存在程度，并得出了多个关键发现。

Apr, 2024

摆脱种族和性别刻板印象的人工智能生成的人脸

使用分类器研究文中文字图生成 AI 模型中的种族和性别刻板印象，提出一种新的去偏方法并增加人脸多样性。

Feb, 2024

友好的脸：在输入模糊不清时，文本到图像系统是否依赖于刻板印象？

本文研究了视觉上未详细说明但包含显著社交属性的提示所生成图像的属性，发现这些图像往往会存在与刻板印象文献中报道的相似的人口统计学偏见，然而不同模型之间的趋势不一致，需要进行进一步调查。

Feb, 2023

超越表面：文本到图像生成中的全球尺度视觉刻板分析

通过使用现有的文字资源来评估 T2I 模型生成的图像中的地缘文化刻板印象，我们的研究表明在与其他属性相比，特定身份群体的图像中刻板印象出现的可能性是其他属性的三倍，并揭示出所有身份群体的默认代表都具有刻板印象的外观。

Jan, 2024

T2IAT：衡量文本到图像生成的情感色彩和模式偏见

本研究在探讨文本转图像生成模型领域的人类偏见及刻板印象问题，并为此提出了一种基于社会心理学中的隐性联系测验（Implicit Association Test）的文本到图像联系测试框架（Text-to-Image Association Test），通过实验验证模型在道德中性和民族刻板印象等各方面存在复杂的刻板印象行为。

Jun, 2023

探索文本到图像基础模型在下游应用中的社会偏见

使用合成图像的方法探索扩散模型的两个应用领域（图像编辑和分类），从而揭示了目前最先进的开源文本到图像模型 Stable Diffusion 中存在的具有意义且显著的交叉社会偏见，这对于下游任务和服务中文本到图像基础模型的不加思考的应用提出了警告。

Dec, 2023

评估大型语言模型中的性别和种族刻板印象

通过比较研究和建立评估框架，在专业环境中研究语言模型的两种偏见：性别和种族。我们发现，尽管较新的模型相比较老模型来说性别偏见大大减少，但种族偏见仍然存在。

Nov, 2023