机器学习研究中的偏见调查

Aug, 2023

A survey on bias in machine learning research

Agnieszka Mikołajczyk-Bareła, Michał Grochowski

TL;DR本文通过为潜在的偏见和数据模型中的错误提供分类法，目的是弥合过去关于偏见的文献以及在机器学习中缺少对其根源或原因的研究。调查分析了机器学习（ML）流程中超过四十个潜在的偏见来源，并且为每个来源提供了明确的示例。通过理解机器学习中偏见的来源和后果，可以开发出更好地检测和减轻偏见的方法，从而得到更公正、更透明和更准确的 ML 模型。

Abstract

Current research on bias in machine learning often focuses on fairness, while overlooking the roots or causes of →

bias machine learning fairness sources pipelines

发现论文，激发创造

解剖因果偏见

准确测量在基于机器学习的自动决策系统中的歧视是解决子群体和 / 或个体间公平性的重要问题所必需的。本文关注于在生成和 / 或收集训练数据的方式中出现的一类偏见，我们称之为因果偏见，并使用因果关系领域的工具来正式定义和分析此类偏见。本文考虑了四种来源的偏见，即混杂、选择、测量和交互。本文的主要贡献是为每种偏见提供了一个基于模型参数的闭合表达式。这使得分析每种偏见的行为成为可能，特别是在哪些情况下它们不存在，以及在哪些其他情况下它们被最大化。我们希望提供的特征有助于社会更好地理解机器学习应用中偏见的来源。

Oct, 2023

机器学习中的偏差与公正调查

调查表明，人工智能领域中存在各种偏见和不公，因此机器学习研究人员定义了公平性的分类，以解决现有 AI 系统中的偏见问题。此外，调查还考察了在 AI 的不同领域和子领域中，现有技术的问题及其应对措施，以期鼓励研究人员在其各自领域中研究此问题。

Aug, 2019

机器学习模型中的偏见和不公平性：系统性文献综述

本研究旨在检查现有知识中关于机器学习模型中的偏见和不公平的研究，并识别减弱算法不公平和偏差的方法、公平性度量和支持工具。经过系统文献综述，发现了 40 篇可用于 Scopus、IEEE Xplore, Web of Science 和 Google Scholar 知识库的文章。结果表明，针对 ML 技术的多种偏见和不公平检测与减轻方法，在文献中定义了明确的度量标准，可以突出不同的度量标准。因此建议进一步研究，以定义在每种情况下应采用的技术和指标，以标准化并确保机器学习模型的公正性，从而允许最适当的度量标准来检测偏见和不公平。

Feb, 2022

机器学习中的公平性：一项调查

这篇文章介绍了机器学习中的社会偏见和公平性问题，总结了预处理、处理和后处理等多种方法，包含二分类、回归、推荐系统、无监督学习和自然语言处理等多个方面，同时提供了多个开源库。最后，列举了公平性研究的四个难题。

Oct, 2020

数据偏差管理

本篇论文探讨了数据偏见对最终用户的影响、偏见的来源以及如何处理数据偏见的问题。提出了‘bias management’的概念，强调应该从识别、测量、索引、面向和调整偏见的角度入手，而不是在所有情况下都要消除数据偏见。

May, 2023

通过模型和数据偏差交互理解欺诈检测中的不公平性

机器学习算法应用广泛，但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法，并探究了算法的不公平和精度之间的权衡。实证研究表明，在不同的数据偏见设置下，算法的公平性和精度会受到不同的影响，而简单的预处理干预技术可以提高算法的公平性。

Jul, 2022

机器学习分类器的偏差缓解：一项综合调查

本篇论文对机器学习模型中的偏差缓解方法进行了全面调查，收集了 341 篇有关偏差缓解的出版物，并对它们进行了评估，提供了支持从业人员在开发和评估新的偏差缓解方法时做出明智选择的见解。

Jul, 2022

机器人学习中的公正性与偏见

该论文从技术、道德和法律等多个角度出发，全面调研了与机器人学习中公正性相关的挑战和最新进展，并讨论了不同领域中有偏见所导致的不公正后果及其应对策略，旨在为公正机器人学习的开发铺平道路。

Jul, 2022

自然语言处理中偏差和公平性调查

本次调查分析了 NLP 模型的社会影响，探讨了 NLP 算法中存在性别、种族和文化偏见的根源，定义了公平性，并说明了 NLP 各个子领域如何减少系统存在的偏见，最终讨论了未来研究如何消除 NLP 算法中的有害偏见。

Mar, 2022

机器学习中的低表示和抽样偏差问题探讨

本文介绍了通过采样偏差分析和定义样本大小偏差和代表性偏差，以及探讨借助企图收集欠代表的群体样本来处理歧视的观点。

Jun, 2023