ICON$^2$: 物体检测中可靠的预测不平等性基准测试
该研究研究了最新的物体检测系统是否能够在不同肤色的行人中具有公正的预测性能,我们对一个现有的大规模数据集 BDD100K 进行了注释,并提供了两种肤色分组之间性能的深入比较分析,发现时间、遮挡和训练期间重新加权的监督损失对这种预测性别扭曲的影响程度。
Feb, 2019
本研究通过标注 Dollar Street 图像中的因素,例如颜色、形状和背景,揭示了不同地区、不同收入水平中目标对象之间的差异,证明性能差异是与贴图、遮挡和低照度图像的差异相关联,为提高深度学习系统的性能差异提供了解决思路。
Apr, 2023
自主驾驶车辆部署迅速扩张至多个城市。本研究分析了目前最先进的基于 Transformer 的目标检测器中对行人检测公平性的全面实证分析,包括经典度量和新颖的基于概率的度量,以探索保护属性和环境因素对目标检测性能的影响。
May, 2024
计算机视觉模型在性别和肤色等属性方面存在已知的性能差异。本论文提出了一个名为 FACET(计算机视觉公平性评估)的新基准,它是一个大型、公开可用的评估集,包括 32,000 张图片,用于图像分类、目标检测和分割等常见视觉任务。我们通过对 FACET 中的每张图像进行手动标注,包括感知肤色和发型类型等与人相关的属性,手动绘制边界框,并标记诸如唱片骑师或吉他手等精细的与人相关的类别。我们利用 FACET 对最先进的视觉模型进行基准测试,并展示潜在的性能差异和挑战。我们的研究结果显示,分类、检测、分割和视觉定位模型在人口属性和属性交叉上存在性能差异。这些伤害表明,在这些视觉任务中,并不是所有的人都能得到公平和公正的对待。我们希望使用我们的基准测试结果能够为更加公平、更加稳健的视觉模型做出贡献。FACET 在该 https URL 上公开可用。
Aug, 2023
本文提出了一种使用编码器 - 解码器网络开发的人脸图像合成方法,以测量商业计算机视觉分类器的反事实公平性,并报告了在线搜索服务中与职业相关的关键字中出现的偏向性,用以解释模型偏差的来源。
May, 2020
本文提出了一种新的评估图像字幕偏见的量化评估度量 ImageCaptioner2,通过对生成的字幕进行基于提示的图像字幕评估,以评估基于图像的字幕算法的偏见,通过在 MS-COCO 字幕数据集,Artemis V1 和 Artemis V2 上对 11 种不同的基于图像的字幕结构以及三种不同的受保护属性(性别,种族和情绪)进行测试来证实该度量的有效性,并验证了我们的度量与最近的度量(LIC)相比,具有更高的人类一致性。
Apr, 2023
通过扩散模型生成多个包含不同种族标签的职业图像集,我们发现使用非高加索标签生成的图像的职业错误分类率显著高于使用高加索标签生成的图像,且部分错误分类表明存在种族偏见。通过计算对不同身份群体预测的真实职业标签的概率标准差,我们测量了模型的公平性。使用这个公平性指标,我们发现在评估的视觉和语言模型之间存在显著差异。我们希望我们的研究展示了使用扩散方法进行公平性评估的潜在价值。
Nov, 2023
该研究论文介绍了 CrowdSim2—— 一个新的人和车辆检测适用的合成图像集合,旨在用于基于人工智能的监督模型开发。研究发现他们使用的这个新数据集对于在受控环境中测量检测器性能是一个有价值的工具。
Apr, 2023
本文总结了 2020 年 ChaLearn Looking at People Fair Face Recognition and Analysis Challenge 的评测结果和优胜解决方案,并提供了对结果的分析。这个比赛的目的是评估提交算法在其他混淆因素存在时的准确性和性别和肤色方面的偏见。参赛者使用一个不平衡的数据集进行了评估,这模拟了 AI 模型在不平衡数据上训练和评估的真实世界情况。最终该比赛吸引了 151 个参与者,36 个团队进入了最后一轮。其中 10 个团队在实现非常低的偏见指标的同时,超过了 0.999 的 AUC-ROC。参赛者们常用的策略包括面部预处理、数据分布的同质化、使用有偏向性的损失函数和集成模型。前 10 名团队的分析还表明,对于肤色较暗的女性,虚假阳性率较高,同时,佩戴眼镜和年龄较小也会增加虚假阳性率。
Sep, 2020