机器学习公正的肤色标注的共识性和主观性
该文研究计算机视觉系统分析人类图像的种族差异,提出用比种族信息更客观的肤色注释来评估公平性能。作者发现当前肤色注释程序存在高度不一致性和不确定性,并且忽略了人类参与者和历史社会背景的地位问题。通过文献综述和注释实验,作者提出了肤色注释作为社会技术项目,并呼吁加强注释过程的设计、分析和文档记录。
May, 2023
通过在皮肤病分类图像中考虑皮肤色调差异来解决公平性问题是至关重要的,然而公共数据集中缺乏皮肤色调标签导致无法构建公平的分类器。目前,这些皮肤色调标签的估计是在独立研究中使用个体类型角度(ITA)进行公正性分析之前进行的。本文回顾并比较了四种基于 ITA 的皮肤色调分类方法在 ISIC18 数据集上的应用,该数据集是评估皮肤癌分类公平性的常用基准。我们的分析揭示了先前发表的研究中存在较大分歧,从而展示了基于 ITA 的皮肤色调估计方法存在的风险。此外,我们调查了这些方法之间差异如此之大的原因,并发现 ISIC18 数据集中缺乏多样性,限制了其作为公平性分析测试平台的使用。最后,我们建议进一步研究鲁棒的 ITA 估计方法和带有肤色注释的多样性数据集采集,以促进对皮肤科人工智能工具的公平评估。我们的代码可在此 https URL 访问。
Aug, 2023
介绍了一个新的数据集,包含跨年龄、性别、肤色和环境光条件的多样性,用于帮助研究者评估他们的计算机视觉和音频模型的准确性。此数据集可广泛应用于评估图像、音频等多个领域的应用。
Apr, 2021
该研究旨在衡量计算机视觉中明显的肤色,超越肤色一维刻板印象的范围。通过引入色调角度从红到黄的范围作为肤色的补充维度,该研究揭示了计算机视觉系统中与肤色相关的偏见,并推荐使用多维肤色尺度,以评估公平性。
Sep, 2023
本研究提出了一种高效有效的算法,可以自动标记皮肤损伤图像的肤色,并将其用于注释基准 ISIC 数据集以减少皮肤色调偏差。实验结果证明,皮肤色调检测算法优于现有解决方案,取消偏见可以提高普适性,并减少轻重肤色间的黑色素瘤检测性能差异。
Feb, 2022
该研究研究了最新的物体检测系统是否能够在不同肤色的行人中具有公正的预测性能,我们对一个现有的大规模数据集 BDD100K 进行了注释,并提供了两种肤色分组之间性能的深入比较分析,发现时间、遮挡和训练期间重新加权的监督损失对这种预测性别扭曲的影响程度。
Feb, 2019
计算机视觉模型在性别和肤色等属性方面存在已知的性能差异。本论文提出了一个名为 FACET(计算机视觉公平性评估)的新基准,它是一个大型、公开可用的评估集,包括 32,000 张图片,用于图像分类、目标检测和分割等常见视觉任务。我们通过对 FACET 中的每张图像进行手动标注,包括感知肤色和发型类型等与人相关的属性,手动绘制边界框,并标记诸如唱片骑师或吉他手等精细的与人相关的类别。我们利用 FACET 对最先进的视觉模型进行基准测试,并展示潜在的性能差异和挑战。我们的研究结果显示,分类、检测、分割和视觉定位模型在人口属性和属性交叉上存在性能差异。这些伤害表明,在这些视觉任务中,并不是所有的人都能得到公平和公正的对待。我们希望使用我们的基准测试结果能够为更加公平、更加稳健的视觉模型做出贡献。FACET 在该 https URL 上公开可用。
Aug, 2023
本研究介绍了一个数据集,有助于评估算法偏见和计算机视觉和语音模型在 11 个属性方面的鲁棒性。数据集包括来自巴西、印度、印度尼西亚、墨西哥、越南、菲律宾和美国的 26,467 个视频。参与者同意将其数据用于评估 AI 模型的公平性并提供了多种人口统计学信息。
Mar, 2023
本文针对深度人脸识别在肤色判别方面的争议,提出了基于肤色匹配训练数据和学习自适应边距的元学习算法以缓解算法偏差,并提供了 Identity Shades (IDS) 数据库、BUPT-Globalface 以及 BUPT-Balancedface 数据集。实验结果表明,该算法有效缓解了肤色偏差并实现了更加平衡的人脸识别性能。
May, 2022
通过学习图像具有不同质量评分的分布,我们提出了一种质量引导的图像增强范式,使得图像增强模型可以连续调整图像以适应不同的质量要求。通过主观质量评估实验和自然图像实验证明了我们方法的有效性和广泛适用性,特别是在肤色调整方面。
Jun, 2024