解剖因果偏见

Oct, 2023

Dissecting Causal Biases

Rūta Binkytė, Sami Zhioua, Yassine Turki

TL;DR准确测量在基于机器学习的自动决策系统中的歧视是解决子群体和 / 或个体间公平性的重要问题所必需的。本文关注于在生成和 / 或收集训练数据的方式中出现的一类偏见，我们称之为因果偏见，并使用因果关系领域的工具来正式定义和分析此类偏见。本文考虑了四种来源的偏见，即混杂、选择、测量和交互。本文的主要贡献是为每种偏见提供了一个基于模型参数的闭合表达式。这使得分析每种偏见的行为成为可能，特别是在哪些情况下它们不存在，以及在哪些其他情况下它们被最大化。我们希望提供的特征有助于社会更好地理解机器学习应用中偏见的来源。

Abstract

Accurately measuring discrimination in machine learning-based automated decision systems is required to address the vital issue of fairness between subpopulations and/or individuals. Any bias in measuring

discrimination machine learning-based automated decision systems bias causal biases model parameters

发现论文，激发创造

机器学习研究中的偏见调查

本文通过为潜在的偏见和数据模型中的错误提供分类法，目的是弥合过去关于偏见的文献以及在机器学习中缺少对其根源或原因的研究。调查分析了机器学习（ML）流程中超过四十个潜在的偏见来源，并且为每个来源提供了明确的示例。通过理解机器学习中偏见的来源和后果，可以开发出更好地检测和减轻偏见的方法，从而得到更公正、更透明和更准确的 ML 模型。

Aug, 2023

社会歧视推理的因果推断

本文介绍一种基于倾向得分分析的原因型歧视方法，并利用回归树学习新的歧视 / 偏袒模式，验证在两个现实世界的数据集上，它可以加强机器学习透明度并探测训练数据和学习算法中的歧视性偏差。

Aug, 2016

机器学习中的低表示和抽样偏差问题探讨

本文介绍了通过采样偏差分析和定义样本大小偏差和代表性偏差，以及探讨借助企图收集欠代表的群体样本来处理歧视的观点。

Jun, 2023

机器学习中偏差引发的特征的检测与评估

该研究提出了一种系统性地识别模型中引起偏见的所有特征的方法，以帮助领域专家在决策过程中提供支持。通过评估四个知名数据集，展示了我们的贡献如何在开发、测试、维护和部署公平 / 公正的机器学习系统时推动标准程序。

Oct, 2023

非公平的午餐：医学影像机器学习数据集偏差的因果观点

机器学习方法在临床决策中的重要性日益提升，因此解决公平性问题变得越来越迫切。尽管已经有很多工作致力于检测和改善算法偏见，但目前的方法存在缺陷和潜在危害。我们提出因果角度来研究算法偏见，强调数据集偏见的不同来源可能看起来相似，但需要采用截然不同的缓解策略。我们从盛行度、呈现度和注释差异三个因果偏见机制的角度进行分析。我们提供了一个实用的三步骤框架，用于思考医学影像公平性，支持开发安全和公正的 AI 预测模型。

Jul, 2023

因果推断用于公平性

本文强调通过因果关系的发现步骤，适当地使用因果关系来解决公平性问题的重要性，并且通过使用合成和标准公平性基准数据集的实证分析来证实了即使微小的因果模型差异也可能对公平性 / 歧视的结论产生重大影响。

Jun, 2022

在多个数据集偏差源存在时，调查 AI 算法的低诊断率

该研究通过对人群亚组之间的疾病分类器性能分析，发现低诊断率造成的表现差异引起了关注，进一步强调了在训练数据中嵌入的人类偏见可能会放大现有的健康差异，并探讨了评估模型公正性的一些困难。

Jan, 2022

机器学习中测量间接歧视的调查研究

本文综述了关于如何消除历史数据中偏见和歧视对预测模型造成的影响的研究，包括综述了各种可用于测量数据中歧视的方法和评估反歧视预测模型性能的措施，并提出了非歧视性预测建模的实践建议。

Oct, 2015

通过因果推理避免歧视

该研究探讨了机器学习中公平性的定义和测量方法，提出了基于因果推理的非歧视标准，并开发了相应的算法。

Jun, 2017

一个新的偏差度量的原则方法

机器学习和数据驱动算法在决策制定领域的广泛应用已逐年增加，但相关负面影响也随之日益严重。负面数据偏差是其中之一，会对特定群体造成有害后果。为解决偏差带来的负面后果，必须首先认识到其存在，并找到一种能够理解和量化的方法。本文的主要贡献是：（1）提出了一个定义和高效量化数据集相对于保护群体偏差水平的通用算法框架；（2）定义了一种新的偏差度量方法。我们的实验结果在九个公开数据集上得到验证，并进行了理论分析，从而为该问题提供了新的见解。基于我们的方法，我们还推导出一种可能对政策制定者有用的偏差缓解算法。

May, 2024