探究深度面部分析中的偏差:KANFace 数据集和实证研究
研究发现最近深度学习模型容易出现以种族和性别等保护类别为基础的歧视。通过使用平衡的脸部数据集,探究三种常见的深度伪造检测器在保护子群体上的性能差异,发现预测性能在种族之间存在很大的差异,该研究还发现一些方法可能会导致伪造影响保护子群体,并造成检测器出现系统性别种族歧视。
May, 2021
本文总结了 2020 年 ChaLearn Looking at People Fair Face Recognition and Analysis Challenge 的评测结果和优胜解决方案,并提供了对结果的分析。这个比赛的目的是评估提交算法在其他混淆因素存在时的准确性和性别和肤色方面的偏见。参赛者使用一个不平衡的数据集进行了评估,这模拟了 AI 模型在不平衡数据上训练和评估的真实世界情况。最终该比赛吸引了 151 个参与者,36 个团队进入了最后一轮。其中 10 个团队在实现非常低的偏见指标的同时,超过了 0.999 的 AUC-ROC。参赛者们常用的策略包括面部预处理、数据分布的同质化、使用有偏向性的损失函数和集成模型。前 10 名团队的分析还表明,对于肤色较暗的女性,虚假阳性率较高,同时,佩戴眼镜和年龄较小也会增加虚假阳性率。
Sep, 2020
在深度学习模型使用高维输入和主观标签进行训练时,公正性依然是一个复杂且缺乏研究的领域。面部情绪识别是一个数据集往往存在种族不平衡问题的领域,可能导致模型在不同种族群体之间产生不同的结果。本研究聚焦于通过对具有多样种族分布的训练集进行子采样,以及评估这些模拟中的测试性能来分析种族偏见。我们的发现表明,较小的数据集中的伪造面孔可以在接近种族平衡的模拟中提高公正性和性能指标。值得注意的是,F1 分数平均增加了 27.2 个百分点,人口统计学平等指标平均增加了 15.7 个百分点。然而,在具有更多面部变化的较大数据集中,公正性指标通常保持不变,这表明仅仅种族平衡是无法在不同种族群体之间实现测试性能的平等的。
Aug, 2023
利用合成的面部图像研究数据集偏差对深度卷积神经网络的泛化性能的影响,发现数据集偏差对 DCNNs 的泛化性能有着显著的影响,提出的方法允许观察和比较不同 DCNN 架构的泛化性能,同时揭示了当前 DCNN 架构的主要局限性。
Dec, 2017
本研究提出了一种新的度量方法,用于评估多类多人口统计分类问题中面部表情识别中的代表性和刻板印象偏见以及训练模型的残余偏见。这些度量结合在一起,可以用于研究和比较不同的偏见缓解方法。在对 Affectnet 数据集进行分析后,我们发现其中存在巨大的种族偏见和性别定型,并提供了不同人口统计属性的不同子集来训练模型。
May, 2022
本文讨论人脸识别准确率差异的问题,指出虽然许多数据集都平衡了各个人群中身份的数量和图像的数量,但身份和图像数量并不是影响一对一人脸匹配准确性的决定因素,因此需要一个更具有偏差意识的工具包来创建跨人群的平衡评估数据集。
Apr, 2023
通过深入分析,本文重点讨论了涉及种族、年龄和性别等因素的交叉偏见问题,提出了在当前文献中较少探索的种族、年龄和性别组合方面的性能差异。此外,本文在定量分析中引入了五个补充指标,包括不公平影响和不公平待遇指标,以克服当前主流方法中常被忽视的重要局限。研究结果表明,人脸识别系统存在普遍偏见,不仅限于种族,不同的人口统计因素导致显著不同的结果。通过揭示这些偏见及其影响,本文旨在促进进一步研究,以开发更公正、更公平的人脸识别和验证系统。
Jul, 2023
本研究使用包含 6 个不同族裔的 24K 身份的新 DiveFace 数据库进行了面向深度学习的人脸识别的全面研究和性能分析,并证明了流行面孔数据库高度代表性的族群,导致预先训练的深度面部模型具有很强的算法歧视性,该歧视性可以定性地观察到深度模型的特征空间以及在不同族裔群体中应用这些模型时存在的性能差异。
Dec, 2019
本文提出了一种新的算法来训练公平的 deepfake detection model,以解决使用偏见的数据训练深度学习模型可能会导致不公平表现的问题。实验结果表明,该方法可以提高 deepfake detection 的公平性和鲁棒性。
Jun, 2023
AI 生成的人脸已经丰富了人类的生活,但也存在滥用风险。为了缓解偏见,设计算法公平方法是关键,然而当前检测器在不同人群中表现出偏见。本研究引入了 AI-Face 数据集,该数据集是首个具备人口属性注释的、包括真实人脸、deepfake 视频中的人脸以及由生成对抗网络和扩散模型生成的人脸的百万级 AI 生成人脸图像数据集。基于该数据集,我们进行了首次全面的公平性评估,评估了各种 AI 人脸检测器,并提供有价值的见解和发现,以推动未来公平设计 AI 人脸检测器。我们的 AI-Face 数据集和评估代码在此 https URL 上公开可用。
Jun, 2024