公平合成数据引发强有力的统计平等

Nov, 2023

公平合成数据引发强有力的统计平等

Strong statistical parity through fair synthetic data

Ivona Krchova, Michael Platzer, Paul Tiwald

TL;DR通过在敏感属性上等化合成数据生成器的目标概率分布，使用 AI 生成的合成数据进行训练的下游模型能够提供公平的预测，使得即使从偏见的原始数据推断出来，也能够提供强大的公平预测。

Abstract

ai-generated synthetic data, in addition to protecting the privacy of original data sets, allows users and data consumers to tailor data to their needs. This paper explores the creation of synthetic data that embodies f

ai-generated synthetic data fairness by design statistical parity fairness downstream model fair predictions

发现论文，激发创造

从真实数据到合成数据的转换：量化模型中的偏差

本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡，并研究了合成数据生成技术的变体，包括差分隐私生成方案，通过实验表明，合成数据训练的模型存在不同程度的偏差影响，且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。

May, 2021

公平合成数据生成

本研究提出一种通过预处理算法识别和删除偏差样本以生成更公平的合成数据的管道，可以有效地克服许多挑战，并在某些情况下提高性能。

Oct, 2022

具有统计保证的参数公平性

通过将与预测相关的分布属性纳入考虑，我们扩展了人口平等的概念，允许专家知识在公平解决方案中得到应用，并通过一个工资的实际案例说明了此新度量的使用，同时开发了解决实际挑战的参数方法，提供了一个适用于现实生活中应用场景的强大解决方案。

Oct, 2023

公平性的测度和误测：公平机器学习的关键综述

公平机器学习的早期专注是确保由算法指导的决策是公平的，三个公平定义引起了人们的关注，即反分类，分类平衡和校准，但这三个公平定义都有重大的统计局限性。相比之下，我们认为更倾向于根据最准确的风险估计对类似风险的人进行相似的处理，而不是一定要满足公平的数学定义，并强调这种方法需要大量的努力来构建适当的风险估计。

Jul, 2018

评估差分隐私合成数据对表格数据的效用和公平性在端到端机器学习流程中

对比真实数据，研究调查了采用差分隐私合成数据可以替代机器学习流程中的真实数据，并确定了训练和评估机器学习模型的最有效的合成数据生成技术。结果显示，基于边缘分布的合成数据生成器能够获取与真实数据相似的实用性和公平性特征。

Oct, 2023

SimFair: 基于模拟模型的物理引导公平感知学习

使用物理引导的公平感知学习框架 SimFair，整合基于物理规律的模拟和逆向建模来解决仅有有限数据样本新区域的困境，进一步提高了公平性保护的效果。

Jan, 2024

公平性生成对抗网络

本文介绍了公平 GAN，一种生成数据集的方法，这个数据集类似于给定的多媒体数据集，但在分配决策中对受保护属性更公平。我们提出了一种新颖的辅助分类器 GAN，力求实现人口统计学公平或机会平等，并在几个数据集上展示了实证结果，包括名人面孔属性 (CelebA) 数据集、Quick, Draw! 数据集以及一个足球球员图像数据集和他们被罚下的进攻。这种方法适合吸收未标记的数据，我们利用这个方法增强了足球数据集。在生成逼真的图像的同时，方法倾向于改善人口统计学公平和机会平等。

May, 2018

协调预测和统计平等：因果方法

通过对统计平等和预测平等的关系进行原因分解，我们得出了一种新的公式，使得两种平等概念不互斥，而是互补的，并通过业务必要性的理念涵盖了公平性概念的一系列光谱，最终我们通过真实世界的案例证明了我们发现的重要性。

Jun, 2023

超人公平性

将公平性问题重新解释为一种基于超级公平性目标的模仿学习任务，以同时提高决策的准确性和公平性。

Jan, 2023

使用合成数据生成器研究偏见：实证证据与哲学解释

本文提出了一种框架来生成具有特定类型偏差和它们的组合的合成数据，以分析在机器学习模型中存在的各种偏差，讨论它们与道德和正义框架的关系，并利用我们提出的合成数据发生器在不同场景中（包括存在不同偏差组合的场景）进行实验，因此分析了偏差对未减轻和减轻的机器学习模型的性能和公平度指标的影响。

Sep, 2022