通过训练概念影响来理解不公平

Jun, 2023

Understanding Unfairness via Training Concept Influence

Yuanshun Yao, Yang Liu

TL;DR通过预定义的概念进行反事实干预，通过影响函数计算培训样本对模型的不公平的影响，帮助实践者理解观察到的不公平现象并修复其培训数据，从而实现检测错误标记、修复不平衡表示、检测针对公平性的污染攻击等其他应用。

Abstract

Knowing the causes of a model's unfairness helps practitioners better understand their data and algorithms. This is an important yet relatively unexplored task. We look into this problem through the lens of the training data - one of the major sources of →

training data fairness performance unfairness counterfactually intervening influence function

发现论文，激发创造

了解公平限制的实例级影响

本研究使用影响函数（influence function）的概念研究了在实例级别强制公平约束时，训练示例的影响，提出了一种公平性影响函数。通过排名它们的影响分数，确定可能导致模型歧视的可疑培训示例，进行了大量实验并得出结论，仅在重要数据示例的子集上训练可以在准确性与公平性之间进行权衡。

Jun, 2022

从观测数据中学习反事实公平性

本文提出了一种新的框架 CLAIRE，通过对反事实数据增广和不变化惩罚的表征学习框架有效地减轻了敏感属性的偏差，并在合成和真实数据集上的实验验证了 CLAIRE 在反事实公平性和预测性能方面的优越性。

Jul, 2023

公平无知背景下的反事实推理用于偏差评估与检测

该研究论文探讨了即使在没有敏感特征的情况下，机器学习模型仍可能存在歧视偏见的问题，并提出了利用反事实推理揭示模型潜在偏见的方法。

Feb, 2023

反事实公平性

本文提出了一个利用因果推断工具来建立公正性模型的框架，以避免机器学习在保险、贷款、雇佣和预测执法等领域的不公正决策，避免造成基于不公正数据的歧视性做法，以法学院成功的公平预测为实际问题进行了实证研究。

Mar, 2017

通过模型和数据偏差交互理解欺诈检测中的不公平性

机器学习算法应用广泛，但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法，并探究了算法的不公平和精度之间的权衡。实证研究表明，在不同的数据偏见设置下，算法的公平性和精度会受到不同的影响，而简单的预处理干预技术可以提高算法的公平性。

Jul, 2022

无需公平训练的公平分类器：一种受影响引导的数据采样方法

学习公平分类器的方法是避免使用敏感属性的训练数据，在适当分布转移的数据集上进行传统训练可以同时减少公平差距上界和模型泛化误差，提高公平性和准确性。我们提出了一种可行的解决方案，通过采样有影响力的数据来在训练过程中逐步转移原始训练数据，其中新数据的敏感属性不会被访问或用于训练。对真实数据的大量实验验证了我们提出算法的有效性。

Feb, 2024

迈向公平机器学习软件：通过反事实推理理解和解决模型偏见

本研究通过反事实思考，提出一种针对 ML 软件中偏见根源的创新对策，并将优化性能和公平性模型相结合，成功提高了 ML 软件的公平性并保持了高竞争力性能

Feb, 2023

反事实公平机会：利用反事实推理测量决策模型公平性

本研究提出一种利用反事实推理揭示机器学习和去偏见模型不公平行为的方法，在三个不同数据集上获得验证。

Feb, 2023

来自带偏见数据的公平机器学习中的残留不公平

研究公平机器学习时，为达到公平，可以通过在不同群体之间平衡度量指标，并研究历史偏见对数据集的影响，然而在训练有偏倚策略的数据时，可能会导致调整后的预测器在目标人群中并不公平，从而引起剩余不公平。使用样本重新加权来估算和调整公平度量标准，以制定出更公平的机器学习算法。

Jun, 2018

反事实公平表达

在这项研究中，我们提出了一种使用所有可用特征进行训练的新算法，从理论和实证方面证明了使用该方法训练的模型能够满足 Counterfactual Fairness。

Nov, 2023