超越肤色：一种多维度的表观皮肤色彩衡量方法

ICCVSep, 2023

超越肤色：一种多维度的表观皮肤色彩衡量方法

Beyond Skin Tone: A Multidimensional Measure of Apparent Skin Color

William Thong, Przemyslaw Joniak, Alice Xiang

TL;DR该研究旨在衡量计算机视觉中明显的肤色，超越肤色一维刻板印象的范围。通过引入色调角度从红到黄的范围作为肤色的补充维度，该研究揭示了计算机视觉系统中与肤色相关的偏见，并推荐使用多维肤色尺度，以评估公平性。

Abstract

This paper strives to measure apparent skin color in computer vision, beyond a unidimensional scale on skin tone. In their seminal paper Gender Shades, Buolamwini and Gebru have shown how gender classification sy

skin color computer vision gender bias fitzpatrick scale hue angle

发现论文，激发创造

探究肤色标注的主观性对计算机视觉基准数据集的影响

该文研究计算机视觉系统分析人类图像的种族差异，提出用比种族信息更客观的肤色注释来评估公平性能。作者发现当前肤色注释程序存在高度不一致性和不确定性，并且忽略了人类参与者和历史社会背景的地位问题。通过文献综述和注释实验，作者提出了肤色注释作为社会技术项目，并呼吁加强注释过程的设计、分析和文档记录。

May, 2023

重新思考皮肤色调公平性在皮肤病变分类中的作用

通过在皮肤病分类图像中考虑皮肤色调差异来解决公平性问题是至关重要的，然而公共数据集中缺乏皮肤色调标签导致无法构建公平的分类器。目前，这些皮肤色调标签的估计是在独立研究中使用个体类型角度（ITA）进行公正性分析之前进行的。本文回顾并比较了四种基于 ITA 的皮肤色调分类方法在 ISIC18 数据集上的应用，该数据集是评估皮肤癌分类公平性的常用基准。我们的分析揭示了先前发表的研究中存在较大分歧，从而展示了基于 ITA 的皮肤色调估计方法存在的风险。此外，我们调查了这些方法之间差异如此之大的原因，并发现 ISIC18 数据集中缺乏多样性，限制了其作为公平性分析测试平台的使用。最后，我们建议进一步研究鲁棒的 ITA 估计方法和带有肤色注释的多样性数据集采集，以促进对皮肤科人工智能工具的公平评估。我们的代码可在此 https URL 访问。

Aug, 2023

机器学习公正的肤色标注的共识性和主观性

本文通过一系列注释实验以验证了 MST 比例尺的作者可以可靠地标注皮肤色调，展示了不同地理区域的标注者所使用的 MST 类别的心态模型不同

May, 2023

评估人工智能公正性的探索：Casual Conversations 数据集

介绍了一个新的数据集，包含跨年龄、性别、肤色和环境光条件的多样性，用于帮助研究者评估他们的计算机视觉和音频模型的准确性。此数据集可广泛应用于评估图像、音频等多个领域的应用。

Apr, 2021

FACET：计算机视觉评估基准的公平性

计算机视觉模型在性别和肤色等属性方面存在已知的性能差异。本论文提出了一个名为 FACET（计算机视觉公平性评估）的新基准，它是一个大型、公开可用的评估集，包括 32,000 张图片，用于图像分类、目标检测和分割等常见视觉任务。我们通过对 FACET 中的每张图像进行手动标注，包括感知肤色和发型类型等与人相关的属性，手动绘制边界框，并标记诸如唱片骑师或吉他手等精细的与人相关的类别。我们利用 FACET 对最先进的视觉模型进行基准测试，并展示潜在的性能差异和挑战。我们的研究结果显示，分类、检测、分割和视觉定位模型在人口属性和属性交叉上存在性能差异。这些伤害表明，在这些视觉任务中，并不是所有的人都能得到公平和公正的对待。我们希望使用我们的基准测试结果能够为更加公平、更加稳健的视觉模型做出贡献。FACET 在该 https URL 上公开可用。

Aug, 2023

使用 Fitzpatrick 17k 数据集评估用于皮肤科临床图像训练的深度神经网络

本研究关注如何在不同皮肤颜色的情况下，训练深度神经网络模型对临床皮肤病例进行分类，发现由 Fitzpatrick 皮肤类型标签进行数据注释所训练的深度神经网络模型对相似肤色的图像分类的准确度更高，并通过对比人工标记的 Fitzpatrick 皮肤类型标签和算法判定的肤色类型来进一步评价该深度神经网络模型。

Apr, 2021

目标检测中的预测不公

该研究研究了最新的物体检测系统是否能够在不同肤色的行人中具有公正的预测性能，我们对一个现有的大规模数据集 BDD100K 进行了注释，并提供了两种肤色分组之间性能的深入比较分析，发现时间、遮挡和训练期间重新加权的监督损失对这种预测性别扭曲的影响程度。

Feb, 2019

通过场景消歧向无人种偏见的肤色估计努力

该研究提出了一个新算法 TRUST，通过利用场景图像中与光照有关的信息来解决面部肌肤颜色以及光照的模糊性，并构建了一套面部肌肤颜色评估系统，对测试表明其比现有算法更加准确和公平

May, 2022

理解面部图像中不平等的性别分类准确性

本文试图解释商用面部分类服务在性别分类任务中在由皮肤类型和性别所定义的交叉群体中表现不平等的原因。研究发现，皮肤类型不是造成准确率差异的主要原因。相反，实验表明跨族群差异在唇、眼和颧结构上的差异导致准确率的差别，唇和眼彩妆在女性面部中被视为强预测因素，这是性别刻板印象的一种有害传播。

Nov, 2018

公平人脸识别的元平衡网络

本文针对深度人脸识别在肤色判别方面的争议，提出了基于肤色匹配训练数据和学习自适应边距的元学习算法以缓解算法偏差，并提供了 Identity Shades (IDS) 数据库、BUPT-Globalface 以及 BUPT-Balancedface 数据集。实验结果表明，该算法有效缓解了肤色偏差并实现了更加平衡的人脸识别性能。

May, 2022