如何做到公平？对标签和选择偏差的研究

Mar, 2024

如何做到公平？对标签和选择偏差的研究

How to be fair? A study of label and selection bias

Marco Favier, Toon Calders, Sam Pinxteren, Jonathan Meyer

TL;DR存在情况下，偏见缓解技术能够更准确的模型，在无偏数据上测量时。我们通过对偏见类型和缓解技术的效果建立关系来解决这一问题，并用理论分析来解释实验结果，并展示最小化公平度量并不一定会产生最公平的分布。

Abstract

It is widely accepted that biased data leads to biased and thus potentially unfair models. Therefore, several measures for bias in data and model predictions have been proposed, as well as bias mitigation techniques

biased data bias mitigation techniques fair models bias measures mathematical analysis

发现论文，激发创造

机器学习分类器偏见缓解方法的全面实证研究

该研究对机器学习分类器的 17 种生动代表性偏差缓解方法进行了综合性的实证研究，在 8 种广泛采用的软件决策任务中应用了 11 种 ML 性能度量（例如，准确性）、4 种公平度量以及 20 种公平 - 性能权衡评估。在分析过程中，作者发现，无法在所有情境下达到最佳公平 - 性能平衡。

Jul, 2022

一个众包平台上的机器学习模型是否会表现出偏见？模型公正性的实证研究

本文展示了在真实世界中基于 40 个高评分 Kaggle 模型的公平性评估及其 7 种缓解技术的实证研究。结果发现，部分优化技术会导致模型失公，尽管机器学习库中有公平控制机制，但这些机制未被记录。最佳的降低失公的方法往往存在权衡和代价.

May, 2020

机器学习分类器的偏差缓解：一项综合调查

本篇论文对机器学习模型中的偏差缓解方法进行了全面调查，收集了 341 篇有关偏差缓解的出版物，并对它们进行了评估，提供了支持从业人员在开发和评估新的偏差缓解方法时做出明智选择的见解。

Jul, 2022

预测公平性的系统评估

研究偏见数据训练中的偏差的缓解方法，分析多种方法在不同数据条件下的性能表现，发现仅基于标准数据集进行评估的公平性研究实践存在局限性。

Oct, 2022

机器学习中的公平性：一项调查

这篇文章介绍了机器学习中的社会偏见和公平性问题，总结了预处理、处理和后处理等多种方法，包含二分类、回归、推荐系统、无监督学习和自然语言处理等多个方面，同时提供了多个开源库。最后，列举了公平性研究的四个难题。

Oct, 2020

通过模型和数据偏差交互理解欺诈检测中的不公平性

机器学习算法应用广泛，但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法，并探究了算法的不公平和精度之间的权衡。实证研究表明，在不同的数据偏见设置下，算法的公平性和精度会受到不同的影响，而简单的预处理干预技术可以提高算法的公平性。

Jul, 2022

机器学习模型中的偏见和不公平性：系统性文献综述

本研究旨在检查现有知识中关于机器学习模型中的偏见和不公平的研究，并识别减弱算法不公平和偏差的方法、公平性度量和支持工具。经过系统文献综述，发现了 40 篇可用于 Scopus、IEEE Xplore, Web of Science 和 Google Scholar 知识库的文章。结果表明，针对 ML 技术的多种偏见和不公平检测与减轻方法，在文献中定义了明确的度量标准，可以突出不同的度量标准。因此建议进一步研究，以定义在每种情况下应采用的技术和指标，以标准化并确保机器学习模型的公正性，从而允许最适当的度量标准来检测偏见和不公平。

Feb, 2022

AIM：归因、解释、减轻数据不公平

数据收集中的历史性歧视对弱势群体和个体产生了影响。现有的公平机器学习研究主要致力于减轻模型预测中的歧视倾向，但对于如何追踪数据中存在的偏见却付出了较少的努力，尽管这对公平机器学习的透明度和可解释性非常重要。为了填补这一空白，我们研究了一个新的问题：发现在训练数据中反映偏见 / 偏见的样本。基于现有的公平性概念，我们提出了一个样本偏见准则，并提出了衡量和抵消样本偏见的实用算法。得出的偏见分数提供了历史偏见在数据中的直观样本级归因和说明。在此基础上，我们通过基于样本偏见的最小数据编辑设计了两种公平机器学习策略。它们可以在最小或零的预测效用损失的情况下，减轻群体和个体的不公平现象。对多个真实世界数据集的大量实验和分析证明了我们方法在解释和减轻不公平方面的有效性。代码可在此 URL 获取：https://URL

Jun, 2024

关于在数据偏差下测试和比较公平分类器

本文针对注入数据偏差的理论模型，从理论和经验上研究了它对公平分类器准确性和公正性的影响，并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验，我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性，并发现少量简单公平技术，如重新加权、指数梯度，在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。

Feb, 2023

针对二分类决策系统的偏见缓解方法：调查和建议

本文对偏见缓解方法进行了系统概述，报告了其优点和局限性，并为二元分类的未来偏见缓解方法的开发提供建议。

May, 2023