关于公平感知机器学习数据集的调查

Oct, 2021

关于公平感知机器学习数据集的调查

A survey on datasets for fairness-aware machine learning

Tai Le Quy, Arjun Roy, Vasileios Iosifidis, Wenbin Zhang, Eirini Ntoutsi

TL;DR本文概述了应用于公平感知机器学习中的真实世界数据集，并使用贝叶斯网络分析数据特征之间的关系，进一步进行了探索性分析。

Abstract

As decision-making increasingly relies on machine learning (ML) and (big) data, the issue of fairness in data-driven Artificial Intelligence (AI) systems is receiving increasing attention from both research and i

fairness machine learning big data real-world datasets exploratory analysis

发现论文，激发创造

机器学习中的公平性

讨论如何使用因果贝叶斯网络和最优输运理论来处理机器学习公平性问题，尤其是在复杂的不公平场景下，提出了一种统一的框架来处理不同的情况和公平标准，并介绍了一种学习公平表示的方法和一种考虑敏感属性使用限制的技术。

Dec, 2020

一个众包平台上的机器学习模型是否会表现出偏见？模型公正性的实证研究

本文展示了在真实世界中基于 40 个高评分 Kaggle 模型的公平性评估及其 7 种缓解技术的实证研究。结果发现，部分优化技术会导致模型失公，尽管机器学习库中有公平控制机制，但这些机制未被记录。最佳的降低失公的方法往往存在权衡和代价.

May, 2020

一套用于表格分类的公平数据集

通过引入一组函数以获取 20 个公平数据集并提供相关的公平元数据，希望能在未来的公平感知机器学习研究中进行更严格的实验评估。

Jul, 2023

机器学习中的公平性：一项调查

这篇文章介绍了机器学习中的社会偏见和公平性问题，总结了预处理、处理和后处理等多种方法，包含二分类、回归、推荐系统、无监督学习和自然语言处理等多个方面，同时提供了多个开源库。最后，列举了公平性研究的四个难题。

Oct, 2020

机器学习中的偏差与公正调查

调查表明，人工智能领域中存在各种偏见和不公，因此机器学习研究人员定义了公平性的分类，以解决现有 AI 系统中的偏见问题。此外，调查还考察了在 AI 的不同领域和子领域中，现有技术的问题及其应对措施，以期鼓励研究人员在其各自领域中研究此问题。

Aug, 2019

懒散的数据处理方式对公正研究的危害

数据实践塑造了公平机器学习研究和实践。关键数据研究通过指出不足并提出改进建议，为该领域的负责前进提供了重要的反思和批评。本研究对公平机器学习数据集进行了全面分析，展示了不经思考的常见实践如何阻碍算法公平研究的覆盖率和可靠性。我们对表格数据集中编码的保护信息以及在 142 篇出版物的 280 个实验中的使用进行了系统研究，发现了三个主要问题：（1）数据和评估中某些保护属性的缺乏代表性；（2）数据预处理过程中普遍排除少数群体；以及（3）威胁公平性研究泛化的模糊数据处理。通过在显著数据集的利用上进行示范性分析，我们展示了不经思考的数据决策如何不成比例地影响少数群体、公平度量和模型比较结果。此外，我们还发现了公开可用数据的限制、隐私考虑以及普遍缺乏意识等补充因素，加剧了这些挑战。为了解决这些问题，我们提出了一套以透明和负责任包容为核心的数据使用建议。本研究强调了对公平机器学习中数据实践进行关键重新评估的必要性，并提供了改善数据的获取和使用的方向。

Apr, 2024

数据与模型的机器学习公平性测试：实证研究

通过对模型的前后公平性进行评估，研究发现，在数据分布和训练数据规模发生变化时，数据和模型公平性指标之间存在线性关系。这表明，在训练之前对公平性进行测试可以尽早发现有偏见的数据收集过程，检测生产系统中的数据漂移，并减少全面训练周期的执行，从而减少开发时间和成本。

Jan, 2024

公平是什么？对公平机器学习的哲学思考及其含义

本文旨在通过形式化一致的公平概念，将哲学讨论转化为 ADM 系统中 ML 模型培训和评估的一种正式框架，并提出了一般算法，以实现 fairML 的更高语言清晰度和实际应用。

May, 2022

机器学习公平性概念：与现实世界应用的联系

本文介绍公平概念的多种不同观点，并提出了在真实世界场景下最适合的公平概念，该结果总结于决策图中，以帮助从业者和决策者浏览 ML 的巨大目录。

Jun, 2020

关于具有公平性、隐私和监管规范的负责任机器学习数据集

在当前人工智能时代，本研究讨论了负责任的机器学习数据集的重要性，并提出了一个评估数据集的负责任框架。通过公平性、隐私保护和合规性等方面的考虑，我们分析了超过 100 个数据集，发现没有一个数据集能免于公平性、隐私保护和合规性问题。我们对数据集的文档化提供了改进建议，并认为在全球范围内的数据保护法规定下，科学界的数据集创建方法需要修订。

Oct, 2023