视觉-语言模型中的面孔社会认知

Aug, 2024

Social perception of faces in a vision-language model

Carina I. Hausladen, Manuel Knott, Colin F. Camerer, Pietro Perona

TL;DR本研究探讨了CLIP模型中人脸的社会认知，填补了这一领域的研究空白。通过系统性地操控面孔的年龄、性别、种族等属性，我们发现CLIP在社会认知上存在对法律保护属性的偏见，尤其是在对黑女性面孔的评价中表现突出。此外，面部表情的影响程度大于年龄和光照，提示以往研究未控制的视觉属性可能得出错误的偏见结论。

Abstract

We explore Social Perception of human faces in CLIP, a widely used open-source Vision-Language Model. To this end, we compare the similari

发现论文，激发创造

视觉语义人工智能中的下降证据

研究了基于“CLIP（对比语言图像预训练）”模型进行多模态“视觉语义”的最新进展，结果表明，此模型存在种族偏见的现象，即具体到“一降”的界定，黑人-白人女性图像被归为黑人是该模型中的默认值，证明了AI学习的自然语言中存在的隐性偏见与认知信念有关，因此必须对其进行监督和检查。

May, 2022

视觉语义人工智能中的标记性

通过评估CLIP模型的性别、种族和年龄标记偏见，我们发现CLIP在白人个体上更容易选择人这个标签而不是种族或者性别标记，同时在男性个体上更倾向于性别标记而非年龄标记，表明其训练数据存在语言和社会偏见。

May, 2022

友好的脸：在输入模糊不清时，文本到图像系统是否依赖于刻板印象？

本文研究了视觉上未详细说明但包含显著社交属性的提示所生成图像的属性，发现这些图像往往会存在与刻板印象文献中报道的相似的人口统计学偏见，然而不同模型之间的趋势不一致，需要进行进一步调查。

Feb, 2023

通过文本生成图像透视社交偏见

本文通过对两个流行的T2I模型（DALLE-v2和Stable Diffusion）进行广泛的自动化和人工评估实验，专注于反映出的性别、年龄、种族和地理位置之间的职业，人格特征和日常情况的生成图像，研究和量化常见的社会偏见。我们的研究结果表明，这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差，但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。

Mar, 2023

使用反事实例子来探究视觉语言模型中的交叉偏见

通过使用文本到图像扩散模型和稳定扩散与交叉注意力控制方法，在产生大规模的反事实图像-文本对的基础上，揭示了现有的先进视觉-语言模型中存在的交叉社会偏差。

Oct, 2023

使用反事实例探究和减轻视觉-语言模型中的交叉社会偏见

使用文本到图像扩散模型在规模上生成对抗实例，以探测和缓解视觉-语言模型中的交叉社会偏见。

Nov, 2023

揭示大规模视觉语言模型中的偏见

通过对不同的大型视觉-语言模型（LVLMs）生成的文本进行大规模研究，我们发现输入图像中所描绘的社会属性（如种族、性别和外貌特征），能够显著地影响生成文本的毒性和与能力相关的词汇。

Mar, 2024

用反事实推理发现大规模视觉-语言模型中的偏见

通过对现有的大规模视觉-语言模型进行大规模研究，我们发现社会属性，如种族、性别和形象特征，可以显著影响生成的有害内容、能力相关词汇、有害刻板印象和被描述个体的评分，同时也探讨了大规模视觉-语言模型和对应的语言模型之间的社会偏见关系和减缓偏见的推理策略。

May, 2024

文本图像生成模型的质量、偏差和性能分析

通过 qualitatively 评估精确生成人脸、群体和指定数量对象的图片，我们不仅检查了多个文本到图像模型的性能，还进行了社会偏见分析。我们发现，容量更大的模型生成的图片质量更高，但同时这些模型也存在固有的性别或社会偏见，从而更全面地了解了它们的影响和局限性。

Jun, 2024

数据集规模和社会一致性调节视觉语言AI中的面部印象偏见

本研究解决了多模态AI模型中面部印象偏见的问题，探讨了数据集规模对该偏见的影响。通过分析43个CLIP视觉语言模型，发现模型在面部印象偏见方面的表现与社会偏见的共享程度密切相关，尤其是在大型数据集上，模型能够复现更精细的社会偏见。这一发现提示在使用预训练模型进行科学研究时，需考虑数据集的策划问题。

Aug, 2024