数据质量对图像分类公平性的影响

May, 2023

数据质量对图像分类公平性的影响

On the Impact of Data Quality on Image Classification Fairness

Aki Barry, Lei Han, Gianluca Demartini

TL;DR本研究探讨了在监督式分类的情况下，训练数据的质量与通过这些数据训练的模型的整体公平性之间的关系，并测量了多个图像分类数据集上多个算法的关键公平度量，同时描绘和添加数据中的噪声以及对训练集数据进行标记的不准确性与标记噪声之间的关系。

Abstract

With the proliferation of algorithmic decision-making, increased scrutiny has been placed on these systems. This paper explores the relationship between the quality of the training data and the overall fairness o

algorithmic decision-making training data fairness metrics supervised classification noise

发现论文，激发创造

标签噪音校正对机器学习公正性影响的系统分析

通过实证方法，我们评估了六种标签噪音修正方法在多个公正度度量标准上的表现，结果表明混合标签噪音修正方法在预测性能和公正度之间取得了最佳平衡，而基于聚类的修正方法可以最大程度地减少歧视但降低了预测性能。

Jun, 2023

我的分类器为什么具有歧视性？

针对敏感应用如医疗保健或刑事司法等领域，本研究旨在解决在预测模型中公平性与准确性的平衡问题，并提出，应该在数据的背景下评估预测结果的公平性，并通过数据收集来解决样本大小或未测量的预测变量所带来的不公平性，同时通过将成本基准的歧视度量分解为偏差，方差和噪音，并提出旨在估计和减少每个术语的行动。最后，本文以收入，死亡率和审查等领域的预测为案例研究，确认这种分析方法的价值，并发现数据收集通常是减少歧视而不牺牲准确性的手段。

May, 2018

依赖于组的标签噪声下的公平分类

研究了在训练标签被随机噪声污染和误差率依赖于保护子组的成员函数的情况下如何训练公平分类器，发现简单地强制使用人口统计差异措施达到平等，会降低分类器的准确性和公平性。通过使用指定的替代损失函数和替代约束条件对经验风险最小化进行优化可以减少标签噪声引起的问题。

Oct, 2020

抗噪公平分类

本文研究了含有噪声敏感特征的公平机器学习算法，表明当使用均值差异分数作为公平性量度标准时，只需通过调整所需的公平容错率即可仍然学习出公平分类器，该容错率可以通过现有噪声率估计器进行估计，并在两个敏感特征审查案例研究中得到实证有效性。

Jan, 2019

公平 AI 的数据质量维度

本文讨论了人工智能系统中的偏见问题，尤其是在涉及人类时，AI 算法反映了由于错误标记的数据来源的技术性误差。作者提出了通过实施数据质量维度以减轻偏见分类错误的潜在改进，涉及到两种性别：非二元性和跨性别者的分类。

May, 2023

探究医学图像分析中的标定偏差问题

本研究探讨了医疗影像分析中的人工智能系统的公平性问题，特别是围绕判定偏见和校准偏见的研究，并展示了通常使用的多种校准指标对样本量存在系统性偏差的情况，如果未考虑到这一点，可能会导致错误的公平性分析。

May, 2023

数据受限二元分类中平衡公平性与准确性

在处理敏感信息的应用程序中，数据限制可能会对机器学习（ML）分类器的可用数据施加限制，本文提出了一个框架，模拟了在四种实际情景下准确性和公平性之间的折衷，以确定在各种数据限制情况下，贝叶斯分类器的准确性受到的影响是如何的。

Mar, 2024

分散注意力即可实现公平

本文提出使用深度学习模型的一种新方法 ——Distraction module 来控制偏见对分类结果的影响，并在不同类型的数据上进行了测试，证明了该模型在维持准确性的同时最小化了偏见。

Mar, 2022

理解图像质量如何影响深度神经网络

本文评估了四种最先进的深度神经网络模型在图像分类方面对模糊、噪声、对比度、JPEG 和 JPEG2000 压缩等五种图像质量扭曲的表现，结果表明现有网络对图像质量扭曲特别是模糊和噪声较为敏感，这为未来开发更具抗图像质量扭曲能力的深度神经网络开展了研究。

Apr, 2016

提高人脸识别模型在未知数据上的公平性分类

通过在多个数据集的脸部图像中同时训练，我们研究了异常数据量模型的性能，观察到 Outlier Exposure 方法可以提高模型的准确性和其他度量指标，并通过引入可训练的权重参数以及重新加权不同类别标签的重要性来增强模型的表现。同时，我们还进行了实验，比较了通过图像特征和平均像素值对图像进行排序以及检测异常值的效果，并测试了数据集的逆序是否对模型的准确性产生影响，以期使模型不仅更准确，而且更公平。

Apr, 2024