Jun, 2024

评估计算机视觉模型的社会技术视角:基于性别和情绪检测与推理的案例研究

TL;DR在计算机视觉技术的不断发展中,图像中性别和情绪的自动检测和解释是一个重要的研究领域。本文调查了计算机视觉模型中的社会偏见,并强调传统评估指标如精确度、召回率和准确率的局限性。我们的研究提出了一个社会技术框架,用于评估计算机视觉模型,同时结合了技术性能指标和社会公平考虑。我们使用一个包含 5,570 张与疫苗接种和气候变化相关的图像的数据集,对比了各种计算机视觉模型的性能,包括传统模型如 DeepFace 和 FER,以及生成模型如 GPT-4 Vision。我们的分析涉及手动验证图像子集中的性别和情绪表达,以作为基准。我们的研究发现,尽管 GPT-4 Vision 在性别分类的技术准确性方面优于其他模型,但它存在歧视性偏见,特别是对跨性别和非二元人格的反应。此外,该模型的情绪检测严重偏向积极情绪,尤其是在男性人格的提示下,与女性图像的幸福感存在明显的偏见。这些发现强调了开发更全面的评估标准的必要性,以解决计算机视觉模型中的有效性和歧视性偏见。我们提出的框架为研究人员提供了指导,以批判性地评估计算机视觉工具,确保它们在传播研究中的应用既具有道德性又有效性。本研究的重要贡献在于强调了一种社会技术方法,倡导支持社会利益并减少偏见的计算机视觉技术。