ICON$^2$: 物体检测中可靠的预测不平等性基准测试

CVPRJun, 2023

ICON$^2$: 物体检测中可靠的预测不平等性基准测试

ICON$^2$: Reliably Benchmarking Predictive Inequity in Object Detection

Sruthi Sudhakar, Viraj Prabhu, Olga Russakovsky, Judy Hoffman

TL;DR本文提出了一种名为 ICON^2 的框架，用于解决计算机视觉系统中对象检测的公平性问题，可以确定潜在的混淆变量与敏感属性之间的相关性，并控制可能的混淆变量以获得更可靠的模型偏差估计。

Abstract

As computer vision systems are being increasingly deployed at scale in high-stakes applications like autonomous driving, concerns about social bias in these systems are rising. Analysis of fairness in real-world

computer vision fairness object detection icon^2 model bias

发现论文，激发创造

目标检测中的预测不公

该研究研究了最新的物体检测系统是否能够在不同肤色的行人中具有公正的预测性能，我们对一个现有的大规模数据集 BDD100K 进行了注释，并提供了两种肤色分组之间性能的深入比较分析，发现时间、遮挡和训练期间重新加权的监督损失对这种预测性别扭曲的影响程度。

Feb, 2019

探究物体识别性能跨收入层和地理区域降低的原因

本研究通过标注 Dollar Street 图像中的因素，例如颜色、形状和背景，揭示了不同地区、不同收入水平中目标对象之间的差异，证明性能差异是与贴图、遮挡和低照度图像的差异相关联，为提高深度学习系统的性能差异提供了解决思路。

Apr, 2023

自主驾驶中的公平性：对挑战性天气下目标检测的混淆因素的理解

自主驾驶车辆部署迅速扩张至多个城市。本研究分析了目前最先进的基于 Transformer 的目标检测器中对行人检测公平性的全面实证分析，包括经典度量和新颖的基于概率的度量，以探索保护属性和环境因素对目标检测性能的影响。

May, 2024

FACET：计算机视觉评估基准的公平性

计算机视觉模型在性别和肤色等属性方面存在已知的性能差异。本论文提出了一个名为 FACET（计算机视觉公平性评估）的新基准，它是一个大型、公开可用的评估集，包括 32,000 张图片，用于图像分类、目标检测和分割等常见视觉任务。我们通过对 FACET 中的每张图像进行手动标注，包括感知肤色和发型类型等与人相关的属性，手动绘制边界框，并标记诸如唱片骑师或吉他手等精细的与人相关的类别。我们利用 FACET 对最先进的视觉模型进行基准测试，并展示潜在的性能差异和挑战。我们的研究结果显示，分类、检测、分割和视觉定位模型在人口属性和属性交叉上存在性能差异。这些伤害表明，在这些视觉任务中，并不是所有的人都能得到公平和公正的对待。我们希望使用我们的基准测试结果能够为更加公平、更加稳健的视觉模型做出贡献。FACET 在该 https URL 上公开可用。

Aug, 2023

性别倾斜：通过属性操作实现计算机视觉模型的反事实公平性

本文提出了一种使用编码器 - 解码器网络开发的人脸图像合成方法，以测量商业计算机视觉分类器的反事实公平性，并报告了在线搜索服务中与职业相关的关键字中出现的偏向性，用以解释模型偏差的来源。

May, 2020

ImageCaptioner$^2$: 图像自动描述模型用于评估自序偏差放大

本文提出了一种新的评估图像字幕偏见的量化评估度量 ImageCaptioner2，通过对生成的字幕进行基于提示的图像字幕评估，以评估基于图像的字幕算法的偏见，通过在 MS-COCO 字幕数据集，Artemis V1 和 Artemis V2 上对 11 种不同的基于图像的字幕结构以及三种不同的受保护属性（性别，种族和情绪）进行测试来证实该度量的有效性，并验证了我们的度量与最近的度量（LIC）相比，具有更高的人类一致性。

Apr, 2023

视觉特征提取器系统评估的公平性指标

该研究提出了三个公平指标，以量化视觉系统的伤害和偏见，并定义了适用于各种计算机视觉模型的精确实验方案，以促进计算机视觉研究中的公平测评。

Feb, 2022

利用扩散扰动衡量计算机视觉中的公平性

通过扩散模型生成多个包含不同种族标签的职业图像集，我们发现使用非高加索标签生成的图像的职业错误分类率显著高于使用高加索标签生成的图像，且部分错误分类表明存在种族偏见。通过计算对不同身份群体预测的真实职业标签的概率标准差，我们测量了模型的公平性。使用这个公平性指标，我们发现在评估的视觉和语言模型之间存在显著差异。我们希望我们的研究展示了使用扩散方法进行公平性评估的潜在价值。

Nov, 2023

CrowdSim2：一个用于目标检测的开放式合成基准测试

该研究论文介绍了 CrowdSim2—— 一个新的人和车辆检测适用的合成图像集合，旨在用于基于人工智能的监督模型开发。研究发现他们使用的这个新数据集对于在受控环境中测量检测器性能是一个有价值的工具。

Apr, 2023

ECCV 2020 的 FairFace Challenge：分析人脸识别中的偏见

本文总结了 2020 年 ChaLearn Looking at People Fair Face Recognition and Analysis Challenge 的评测结果和优胜解决方案，并提供了对结果的分析。这个比赛的目的是评估提交算法在其他混淆因素存在时的准确性和性别和肤色方面的偏见。参赛者使用一个不平衡的数据集进行了评估，这模拟了 AI 模型在不平衡数据上训练和评估的真实世界情况。最终该比赛吸引了 151 个参与者，36 个团队进入了最后一轮。其中 10 个团队在实现非常低的偏见指标的同时，超过了 0.999 的 AUC-ROC。参赛者们常用的策略包括面部预处理、数据分布的同质化、使用有偏向性的损失函数和集成模型。前 10 名团队的分析还表明，对于肤色较暗的女性，虚假阳性率较高，同时，佩戴眼镜和年龄较小也会增加虚假阳性率。

Sep, 2020