评估计算机视觉模型的社会技术视角：基于性别和情绪检测与推理的案例研究

Jun, 2024

评估计算机视觉模型的社会技术视角：基于性别和情绪检测与推理的案例研究

A Sociotechnical Lens for Evaluating Computer Vision Models: A Case Study on Detecting and Reasoning about Gender and Emotion

PDF

Sha Luo, Sang Jung Kim, Zening Duan, Kaiping Chen

TL;DR在计算机视觉技术的不断发展中，图像中性别和情绪的自动检测和解释是一个重要的研究领域。本文调查了计算机视觉模型中的社会偏见，并强调传统评估指标如精确度、召回率和准确率的局限性。我们的研究提出了一个社会技术框架，用于评估计算机视觉模型，同时结合了技术性能指标和社会公平考虑。我们使用一个包含 5,570 张与疫苗接种和气候变化相关的图像的数据集，对比了各种计算机视觉模型的性能，包括传统模型如 DeepFace 和 FER，以及生成模型如 GPT-4 Vision。我们的分析涉及手动验证图像子集中的性别和情绪表达，以作为基准。我们的研究发现，尽管 GPT-4 Vision 在性别分类的技术准确性方面优于其他模型，但它存在歧视性偏见，特别是对跨性别和非二元人格的反应。此外，该模型的情绪检测严重偏向积极情绪，尤其是在男性人格的提示下，与女性图像的幸福感存在明显的偏见。这些发现强调了开发更全面的评估标准的必要性，以解决计算机视觉模型中的有效性和歧视性偏见。我们提出的框架为研究人员提供了指导，以批判性地评估计算机视觉工具，确保它们在传播研究中的应用既具有道德性又有效性。本研究的重要贡献在于强调了一种社会技术方法，倡导支持社会利益并减少偏见的计算机视觉技术。

Abstract

In the evolving landscape of computer vision (CV) technologies, the automatic detection and interpretation of gender and emotion in images

computer vision gender emotion social biases evaluation criteria

发现论文，激发创造

性别倾斜：通过属性操作实现计算机视觉模型的反事实公平性

本文提出了一种使用编码器 - 解码器网络开发的人脸图像合成方法，以测量商业计算机视觉分类器的反事实公平性，并报告了在线搜索服务中与职业相关的关键字中出现的偏向性，用以解释模型偏差的来源。

May, 2020

负责任的 AI：情感识别中的性别偏见评估

本研究旨在通过在六个不同的神经网络中进行深入调查，对面部表情识别的深度学习方法中的性别偏见进行研究，并根据公正的三个定义对其进行评估。结果显示，某些模型存在性别偏见，而更具偏见性的神经网络在男性和女性测试集之间的情感识别准确度差距更大，此外也观察到更适合用于男性和女性情感分类的不同情绪类型。

Mar, 2021

AI 系统公平性：缓解语言视觉模型中的性别偏见

本研究尝试减轻语言视觉模型中的性别偏见问题，通过研究现有数据集中性别偏见的影响程度，并提出一种缓解方法。

May, 2023

一个评估视觉 - 语言模型中性别偏见的统一框架和数据集

通过构建统一的框架系统评估大规模视觉语言模型中的性别职业偏见，我们在不同输入输出模态下的基准测试中观察到不同的偏见程度和方向，希望我们的工作能指导未来改进视觉语言模型以学习社会上没有偏见的表示方式。

Feb, 2024

面部表情识别中性别刻板印象的影响

本文介绍了关于面部表情识别中存在的人口统计偏见的问题，通过使用公共数据集进行实证研究，发现其结果表明在全球统计上存在的偏见并不意味着有利于所有人群，需要对歧视性偏见进行彻底分析和处理。

Oct, 2022

大型视觉语言模型的语境情感识别

在这篇研究论文中，我们使用最近的大型视觉语言模型来探讨两种主要方法：图像字幕生成与仅使用语言的 LLM，以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context（EMOTIC）数据集上评估这些方法，并展示出即使在小型数据集上进行微调，视觉语言模型的性能也能显著超过传统的基准方法。我们的研究结果旨在帮助未来的机器人和智能系统对情感进行敏感的决策和交互行为。

May, 2024

自动评估指标中的性别偏见：以图像字幕为例的案例研究

本论文通过系统的调研，研究发现了预训练模型存在性别偏见的问题，探讨了预训练模型在图像字幕生成任务中的公平性影响，并提出了一种针对这种问题的解决方案：结合 n-gram 匹配和预训练模型评估度量，以减少性别偏见的影响。

May, 2023

思考视觉情绪：理解和克服数据集偏见

机器学习在视觉情感识别方面的应用具有很大的潜力，但目前的方法针对有限的视觉情感概念局限于小规模数据集上进行模型训练和测试。我们的分析确定了现有视觉情感基准测试中存在的一个长期被忽视的问题，即数据集偏见。基于我们的分析，我们提出了一个基于 Webly 监督方法的解决方案，通过利用大量的库存图像数据进行训练。我们发现，使用我们的大规模图像数据集学习的模型表现出了明显更好的泛化能力。此外，使用我们的方法学习得到的视觉表示在不同的图像和视频数据集上具有很大的潜力。

Aug, 2018

利用深度生成模型缓解不同性别 - 人种群体间的性别分类偏差

使用生成式视图、结构化学习和证据学习的方法，可以有效减少面部识别算法的性别分类偏差，并提升性能。

Aug, 2022

新工作，新性别？衡量图像生成模型中的社会偏见

该研究提出了 BiasPainter，这是一个新颖的变态测试框架，可以准确、自动、全面地触发图像生成模型中的社会偏见，并对其公平性进行评估。实验证明，BiasPainter 成功触发了 100% 的测试案例中的社会偏见。

Jan, 2024