动态去偏：基于解释的人工监督机器学习系统决策

Jun, 2024

动态去偏：基于解释的人工监督机器学习系统决策

Unbiasing on the Fly: Explanation-Guided Human Oversight of Machine Learning System Decisions

Hussaini Mamman, Shuib Basri, Abdullateef Balogun, Abubakar Abdullahi Imam, Ganesh Kumar...

TL;DR提出了一种新颖的在部署的机器学习系统中跟踪和纠正歧视的方法，它利用反事实解释来持续监测机器学习系统的预测，并标记歧视性结果，然后将与原始预测和反事实替代方案相关的后续解释呈现给人工审查者进行实时干预，从而实现公平和负责任的机器学习操作。

Abstract

The widespread adoption of ml systems across critical domains like hiring, finance, and healthcare raises growing concerns about their potential for discriminatory decision-making based on protected attributes. While efforts to ensure →

ml systems discrimination fairness counterfactual explanations human-in-the-loop

发现论文，激发创造

采用以人为本的 AI 方法实现公平公正可解释 AI

本文探讨了机器学习中公平性、可解释性、人本主义、社会偏差等问题，并提出了一种以人为本的人工智能方法，以增强分类系统和单词嵌入的可解释性和公平性，通过 D-BIAS 等可视化工具识别和缓解社会偏见。

Jun, 2023

FairLay-ML: 数据驱动型社会关键算法中不公平现象的直观解决方案

本文介绍了 FairLay-ML，一种结合了已有研究工具的图形用户界面，能够提供机器学习模型中不公平逻辑的直观解释，具有易于安装、提供实时黑盒解释和可执行的解决方案等特点。

Jul, 2023

通过模型和数据偏差交互理解欺诈检测中的不公平性

机器学习算法应用广泛，但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法，并探究了算法的不公平和精度之间的权衡。实证研究表明，在不同的数据偏见设置下，算法的公平性和精度会受到不同的影响，而简单的预处理干预技术可以提高算法的公平性。

Jul, 2022

在交互式人机协同 AI 公平性中促进最终用户的参与

我们探索了一种人机交互界面的设计，使得普通用户可以识别潜在的公平问题并在贷款决策的背景下解决它们，为评判和解决人工智能的公平性做出贡献。

Apr, 2022

反事实公平性

本文提出了一个利用因果推断工具来建立公正性模型的框架，以避免机器学习在保险、贷款、雇佣和预测执法等领域的不公正决策，避免造成基于不公正数据的歧视性做法，以法学院成功的公平预测为实际问题进行了实证研究。

Mar, 2017

透过反事实预测实现平等机会和肯定行动

本文提出了两个算法，通过因果模型和反事实决策来实现公平的机器学习预测器，以实现提供平等机会和重修历史劣势。在包括招生、收入、信用和再犯等领域的数据集上进行评估与权衡，结果表明这些预测器在理论上达到了预测性能的最优，同时满足公平性。

May, 2019

解释的力量：走向自动去偏见的仇恨言论检测

本研究提出了一种自动的误用检测器，该检测器依赖于解释方法来检测潜在的偏见，并基于此构建了端到端的去偏扭框架，适用于文本分类器而无需任何外部资源。

Sep, 2022

AIM：归因、解释、减轻数据不公平

数据收集中的历史性歧视对弱势群体和个体产生了影响。现有的公平机器学习研究主要致力于减轻模型预测中的歧视倾向，但对于如何追踪数据中存在的偏见却付出了较少的努力，尽管这对公平机器学习的透明度和可解释性非常重要。为了填补这一空白，我们研究了一个新的问题：发现在训练数据中反映偏见 / 偏见的样本。基于现有的公平性概念，我们提出了一个样本偏见准则，并提出了衡量和抵消样本偏见的实用算法。得出的偏见分数提供了历史偏见在数据中的直观样本级归因和说明。在此基础上，我们通过基于样本偏见的最小数据编辑设计了两种公平机器学习策略。它们可以在最小或零的预测效用损失的情况下，减轻群体和个体的不公平现象。对多个真实世界数据集的大量实验和分析证明了我们方法在解释和减轻不公平方面的有效性。代码可在此 URL 获取：https://URL

Jun, 2024

公正感知学习与无偏表示

本研究提出一种新算法，可以识别和处理潜在的歧视因素，确保机器学习模型的公平性，从而提高模型性能，实现非歧视分类和回归任务。

Feb, 2020

公平无知背景下的反事实推理用于偏差评估与检测

该研究论文探讨了即使在没有敏感特征的情况下，机器学习模型仍可能存在歧视偏见的问题，并提出了利用反事实推理揭示模型潜在偏见的方法。

Feb, 2023