笑脸女性下降:审计图像生成 AI 中的代表性和呈现性性别偏见
这项研究分析了由三种流行的生成人工智能工具生成的图像 - Midjourney、Stable Diffusion 和 DALLE 2 - 代表各种职业,以调查 AI 生成器中潜在的偏见。我们的分析揭示了这些 AI 生成器中两个主要关注领域,包括(1)系统性的性别和种族偏见,以及(2)面部表情和外貌方面的微妙偏见。
Mar, 2024
本文通过对两个流行的 T2I 模型(DALLE-v2 和 Stable Diffusion)进行广泛的自动化和人工评估实验,专注于反映出的性别、年龄、种族和地理位置之间的职业,人格特征和日常情况的生成图像,研究和量化常见的社会偏见。我们的研究结果表明,这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差,但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。
Mar, 2023
利用面部表情识别 (FER) 作为领域,通过分析性别人口的代表性和刻板性两种偏见,研究了数据集中的人口偏见对机器学习模型的传播情况。结果显示,代表性偏见对模型的影响较弱,而刻板性偏见具有显著的影响,主要集中在有偏见的类别上,尽管它也会影响无偏见类别的预测。这些结果强调了需要区分不同类型偏见的偏见分析,这对于有效的偏见缓解策略的开发至关重要。
Jun, 2024
本文提出了一种利用细粒度的自我表达属性研究文本到图像模型中不同性别呈现的范式(称为 Gender Presentation Differences 或 GPD),并通过人工注释量化性别指示符在输入文本中的频率差异并引入了一种新颖的指标:GEP,同时我们还提出了一种自动估计这种差异的方法。自动 GEP 指标基于我们的方法得出的相关性比基于现有 CLIP 得分的相关性更高,无论对于三个最先进的文本到图像模型如何一致,最后,在职业性别成见的背景下,我们展示了我们度量的普遍适用性。
Feb, 2023
生成型 AI 系统的情感表达能力对于 AI 系统的有效性至关重要,特别是那些旨在支持人类心理健康的系统。本研究旨在通过设计一项调查,测量生成型 AI 表达的情感与人类感知的一致性,以回答 AI 如何成功地表达特定情感的问题。通过评估多个生成型图像模型在表达积极和消极情感方面的表现,并分析其中的性能差异,我们发现生成型 AI 模型能够表达出与人类情感相一致的情感表达,但这种一致性在不同 AI 模型和情感本身上存在显著差异,我们还对未来改进的领域进行了分析,并讨论了对于旨在支持心理健康的未来 AI 系统的意义。
May, 2024
最近所提出的大规模图文生成模型(如 DALLE-3)在新应用中表现出很大的潜力,但也面临着前所未有的公平性挑战。此研究通过提出一种新颖的配对刻板印象测试(PST)偏见评估框架来研究这些 T2I 模型中性别偏见的潜在因素。通过 PST,我们从两个方面评估了 DALLE-3:性别职业偏见和组织权力偏见。结果表明,尽管 DALLE-3 在单人情景下似乎公平甚至与刻板印象相悖,但在 PST 下仍揭示了性别职业偏见和权力关联偏见。PST 有效地揭示了 DALLE-3 中单人情景无法捕捉到的潜在性别偏见,进一步凸显了多模态生成系统中的公平性挑战。
Feb, 2024
该研究提出了 BiasPainter,这是一个新颖的变态测试框架,可以准确、自动、全面地触发图像生成模型中的社会偏见,并对其公平性进行评估。实验证明,BiasPainter 成功触发了 100% 的测试案例中的社会偏见。
Jan, 2024
对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查,提出 PaintSkills 工具集进行测量评估,发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距,并且其在性别和肤色方面的偏见对其表现产生了影响。
Feb, 2022
通过对 T2I(Text-to-Image)生成模型中的偏见进行研究调查,揭示了存在的社会偏见对少数群体的边缘化造成的影响,并指出在研究中存在的限制和未来的研究方向。
Apr, 2024