数据偏差管理

May, 2023

Data Bias Management

Gianluca Demartini, Kevin Roitero, Stefano Mizzaro

TL;DR本篇论文探讨了数据偏见对最终用户的影响、偏见的来源以及如何处理数据偏见的问题。提出了‘bias management’的概念，强调应该从识别、测量、索引、面向和调整偏见的角度入手，而不是在所有情况下都要消除数据偏见。

Abstract

Due to the widespread use of data-powered systems in our everyday lives, concepts like bias and fairness gained significant attention among researchers and practitioners, in both industry and academia. Such issues typically emerge from the data, which comes with varying levels of quali

data bias bias management supervised machine learning fairness data quality

发现论文，激发创造

机器学习研究中的偏见调查

本文通过为潜在的偏见和数据模型中的错误提供分类法，目的是弥合过去关于偏见的文献以及在机器学习中缺少对其根源或原因的研究。调查分析了机器学习（ML）流程中超过四十个潜在的偏见来源，并且为每个来源提供了明确的示例。通过理解机器学习中偏见的来源和后果，可以开发出更好地检测和减轻偏见的方法，从而得到更公正、更透明和更准确的 ML 模型。

Aug, 2023

机器学习中的偏差与公正调查

调查表明，人工智能领域中存在各种偏见和不公，因此机器学习研究人员定义了公平性的分类，以解决现有 AI 系统中的偏见问题。此外，调查还考察了在 AI 的不同领域和子领域中，现有技术的问题及其应对措施，以期鼓励研究人员在其各自领域中研究此问题。

Aug, 2019

一个新的偏差度量的原则方法

机器学习和数据驱动算法在决策制定领域的广泛应用已逐年增加，但相关负面影响也随之日益严重。负面数据偏差是其中之一，会对特定群体造成有害后果。为解决偏差带来的负面后果，必须首先认识到其存在，并找到一种能够理解和量化的方法。本文的主要贡献是：（1）提出了一个定义和高效量化数据集相对于保护群体偏差水平的通用算法框架；（2）定义了一种新的偏差度量方法。我们的实验结果在九个公开数据集上得到验证，并进行了理论分析，从而为该问题提供了新的见解。基于我们的方法，我们还推导出一种可能对政策制定者有用的偏差缓解算法。

May, 2024

大数据、数据科学与公民权利

数据分析和算法决策越来越影响我们生活的各个方面，因此有必要确保它们不成为歧视，不公平，社会正义和不公平源泉的工具。本文提出了一个明确的研究议程，旨在解决这些问题。重点包括：确定模型是否存在偏见，将公平意识纳入机器学习方法中，提高数据驱动和模型驱动决策的透明度和控制以及支持跨学科研究来解决这些问题

Jun, 2017

评估临床试验中的数据偏倚

该论文提出了一种解决数据偏见问题的方法，即通过定义可能存在于数据集中的数据偏见类型并使用适当的度量对其进行表征和量化，提供识别、衡量和减轻不同数据来源数据偏见的指南，适用于前瞻性和回顾性临床试验。

Dec, 2022

通过模型和数据偏差交互理解欺诈检测中的不公平性

机器学习算法应用广泛，但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法，并探究了算法的不公平和精度之间的权衡。实证研究表明，在不同的数据偏见设置下，算法的公平性和精度会受到不同的影响，而简单的预处理干预技术可以提高算法的公平性。

Jul, 2022

解剖因果偏见

准确测量在基于机器学习的自动决策系统中的歧视是解决子群体和 / 或个体间公平性的重要问题所必需的。本文关注于在生成和 / 或收集训练数据的方式中出现的一类偏见，我们称之为因果偏见，并使用因果关系领域的工具来正式定义和分析此类偏见。本文考虑了四种来源的偏见，即混杂、选择、测量和交互。本文的主要贡献是为每种偏见提供了一个基于模型参数的闭合表达式。这使得分析每种偏见的行为成为可能，特别是在哪些情况下它们不存在，以及在哪些其他情况下它们被最大化。我们希望提供的特征有助于社会更好地理解机器学习应用中偏见的来源。

Oct, 2023

移除偏见数据以提高公平性和准确性

提出了一种黑盒子方法，用于识别和消除具有偏见的训练数据，以减少机器学习所带来的偏见，此方法在实验中显示出比之前的方法更佳的个体歧视和准确性表现。

Feb, 2021

机器学习中的公平性：一项调查

这篇文章介绍了机器学习中的社会偏见和公平性问题，总结了预处理、处理和后处理等多种方法，包含二分类、回归、推荐系统、无监督学习和自然语言处理等多个方面，同时提供了多个开源库。最后，列举了公平性研究的四个难题。

Oct, 2020

机器学习模型中的偏见和不公平性：系统性文献综述

本研究旨在检查现有知识中关于机器学习模型中的偏见和不公平的研究，并识别减弱算法不公平和偏差的方法、公平性度量和支持工具。经过系统文献综述，发现了 40 篇可用于 Scopus、IEEE Xplore, Web of Science 和 Google Scholar 知识库的文章。结果表明，针对 ML 技术的多种偏见和不公平检测与减轻方法，在文献中定义了明确的度量标准，可以突出不同的度量标准。因此建议进一步研究，以定义在每种情况下应采用的技术和指标，以标准化并确保机器学习模型的公正性，从而允许最适当的度量标准来检测偏见和不公平。

Feb, 2022