评估人工智能公正性的探索:Casual Conversations 数据集
本研究介绍了一个数据集,有助于评估算法偏见和计算机视觉和语音模型在 11 个属性方面的鲁棒性。数据集包括来自巴西、印度、印度尼西亚、墨西哥、越南、菲律宾和美国的 26,467 个视频。参与者同意将其数据用于评估 AI 模型的公平性并提供了多种人口统计学信息。
Mar, 2023
本研究在自动语音识别系统领域对 “Casual Conversations” 进行了研究,发现了多个模型在性别和肤色方面存在显著的词错误率差异。此外,研究呼吁社区开发各种技术以减少这些统计偏差。
Nov, 2021
计算机视觉模型在性别和肤色等属性方面存在已知的性能差异。本论文提出了一个名为 FACET(计算机视觉公平性评估)的新基准,它是一个大型、公开可用的评估集,包括 32,000 张图片,用于图像分类、目标检测和分割等常见视觉任务。我们通过对 FACET 中的每张图像进行手动标注,包括感知肤色和发型类型等与人相关的属性,手动绘制边界框,并标记诸如唱片骑师或吉他手等精细的与人相关的类别。我们利用 FACET 对最先进的视觉模型进行基准测试,并展示潜在的性能差异和挑战。我们的研究结果显示,分类、检测、分割和视觉定位模型在人口属性和属性交叉上存在性能差异。这些伤害表明,在这些视觉任务中,并不是所有的人都能得到公平和公正的对待。我们希望使用我们的基准测试结果能够为更加公平、更加稳健的视觉模型做出贡献。FACET 在该 https URL 上公开可用。
Aug, 2023
本文总结了 2020 年 ChaLearn Looking at People Fair Face Recognition and Analysis Challenge 的评测结果和优胜解决方案,并提供了对结果的分析。这个比赛的目的是评估提交算法在其他混淆因素存在时的准确性和性别和肤色方面的偏见。参赛者使用一个不平衡的数据集进行了评估,这模拟了 AI 模型在不平衡数据上训练和评估的真实世界情况。最终该比赛吸引了 151 个参与者,36 个团队进入了最后一轮。其中 10 个团队在实现非常低的偏见指标的同时,超过了 0.999 的 AUC-ROC。参赛者们常用的策略包括面部预处理、数据分布的同质化、使用有偏向性的损失函数和集成模型。前 10 名团队的分析还表明,对于肤色较暗的女性,虚假阳性率较高,同时,佩戴眼镜和年龄较小也会增加虚假阳性率。
Sep, 2020
该论文在自动驾驶系统中进行了公平性测试,发现了与年龄和肤色相关的显著公平性问题,并且研究表明在低对比度和低亮度的情况下,对深肤色行人的偏见增加了。
Aug, 2023
该研究研究了最新的物体检测系统是否能够在不同肤色的行人中具有公正的预测性能,我们对一个现有的大规模数据集 BDD100K 进行了注释,并提供了两种肤色分组之间性能的深入比较分析,发现时间、遮挡和训练期间重新加权的监督损失对这种预测性别扭曲的影响程度。
Feb, 2019
该文研究计算机视觉系统分析人类图像的种族差异,提出用比种族信息更客观的肤色注释来评估公平性能。作者发现当前肤色注释程序存在高度不一致性和不确定性,并且忽略了人类参与者和历史社会背景的地位问题。通过文献综述和注释实验,作者提出了肤色注释作为社会技术项目,并呼吁加强注释过程的设计、分析和文档记录。
May, 2023
AI 生成的人脸已经丰富了人类的生活,但也存在滥用风险。为了缓解偏见,设计算法公平方法是关键,然而当前检测器在不同人群中表现出偏见。本研究引入了 AI-Face 数据集,该数据集是首个具备人口属性注释的、包括真实人脸、deepfake 视频中的人脸以及由生成对抗网络和扩散模型生成的人脸的百万级 AI 生成人脸图像数据集。基于该数据集,我们进行了首次全面的公平性评估,评估了各种 AI 人脸检测器,并提供有价值的见解和发现,以推动未来公平设计 AI 人脸检测器。我们的 AI-Face 数据集和评估代码在此 https URL 上公开可用。
Jun, 2024
人脸皮肤图像可用于属性分类、如年龄、种族和性别;引入了一个名为 FaceSkin 的数据集,包含各种年龄和种族的人脸图像并评估了其在属性分类、人脸反欺骗和年龄估计等各种下游任务中的有效性。
Aug, 2023