移除偏见数据以提高公平性和准确性

Feb, 2021

移除偏见数据以提高公平性和准确性

Removing biased data to improve fairness and accuracy

Sahil Verma, Michael Ernst, Rene Just

TL;DR提出了一种黑盒子方法，用于识别和消除具有偏见的训练数据，以减少机器学习所带来的偏见，此方法在实验中显示出比之前的方法更佳的个体歧视和准确性表现。

Abstract

machine learning systems are often trained using data collected from historical decisions. If past decisions were biased, then automated systems that learn from historical data will also be biased. We propose a black-bo

machine learning bias black-box discrimination accuracy

发现论文，激发创造

人口平等：缓解现实世界数据中的偏见

计算机决策系统在许多日常生活的方面得到广泛应用，但其中可能存在性别、种族或其他偏见问题。本研究提出一种鲁棒的方法，通过真实世界数据提取出表征人口平衡和真实性的数据集，用于训练分类器，并测试其泛化能力，证实计算机辅助决策中不存在明示或隐含偏见。

Sep, 2023

AIM：归因、解释、减轻数据不公平

数据收集中的历史性歧视对弱势群体和个体产生了影响。现有的公平机器学习研究主要致力于减轻模型预测中的歧视倾向，但对于如何追踪数据中存在的偏见却付出了较少的努力，尽管这对公平机器学习的透明度和可解释性非常重要。为了填补这一空白，我们研究了一个新的问题：发现在训练数据中反映偏见 / 偏见的样本。基于现有的公平性概念，我们提出了一个样本偏见准则，并提出了衡量和抵消样本偏见的实用算法。得出的偏见分数提供了历史偏见在数据中的直观样本级归因和说明。在此基础上，我们通过基于样本偏见的最小数据编辑设计了两种公平机器学习策略。它们可以在最小或零的预测效用损失的情况下，减轻群体和个体的不公平现象。对多个真实世界数据集的大量实验和分析证明了我们方法在解释和减轻不公平方面的有效性。代码可在此 URL 获取：https://URL

Jun, 2024

公正感知学习与无偏表示

本研究提出一种新算法，可以识别和处理潜在的歧视因素，确保机器学习模型的公平性，从而提高模型性能，实现非歧视分类和回归任务。

Feb, 2020

预测公平性的系统评估

研究偏见数据训练中的偏差的缓解方法，分析多种方法在不同数据条件下的性能表现，发现仅基于标准数据集进行评估的公平性研究实践存在局限性。

Oct, 2022

机器学习软件中的偏见：为什么？怎样？该怎么办？

本研究拟定了 Fair-SMOTE 算法以解决自主决策中可能存在的偏见以及带来的问题，通过消除偏见标签、平衡内部分布使得基于敏感属性的示例在正负两类中均等地分布，从而提高了性能表现，并被证实是一种成功的偏差缓解方法。

May, 2021

消除偏见的偏见决策模型比较：基于抵押贷款申请数据的方法对比

通过对房屋贷款申请决策的真实数据添加反事实（模拟）种族偏见，本文展示了即使没有将族裔作为预测变量，机器学习模型（XGBoost）仍然会重复这种偏见。接下来比较了几种去偏方法：禁止变量的平均值、在禁止变量中选择最优预测（一种新方法）以及同时最小化误差和预测与禁止变量之间的关联。去偏可以恢复部分原始决策，但结果对于偏见是否通过代理方式产生是敏感的。

May, 2024

通过模型和数据偏差交互理解欺诈检测中的不公平性

机器学习算法应用广泛，但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法，并探究了算法的不公平和精度之间的权衡。实证研究表明，在不同的数据偏见设置下，算法的公平性和精度会受到不同的影响，而简单的预处理干预技术可以提高算法的公平性。

Jul, 2022

通过统计平等棱镜调查机器学习中的偏见 —— 以成人数据集为例

本文阐述了机器学习模型中出现偏见导致算法决策对特定群体或少数群体的歧视的问题，提出了公平学习问题的数学框架，运用标准差异影响指数量化偏见，最终检查了不同方法在二元分类结果中减少偏见的性能，并表明一些直观方法并不有效。这揭示了在训练观测结果包含偏见时，尝试制作公正的机器学习模型可能是一项特别具有挑战性的任务。

Mar, 2020

信任公平数据：利用质量优化公平导向的数据去除技术

通过引入多目标优化问题来平衡公平性和数据质量，我们提出了一种找到帕累托最优解的方法，以消除偏见缓解技术对数据集的剔除特定数据点所带来的信任问题，并保证子集对整体人群的公平性、组覆盖率和最小数据损失。

May, 2024

公平预测算法的统计框架

本文提出了通过从可允许的训练数据中去除保护变量的所有信息来消除预测模型偏见的方法，并将其应用于罪犯记录的数据集以产生种族中立的再逮捕预测方案，证明了将种族作为协变量省略的方式仍导致存在种族差异，并且证明了应用我们提出的方法可以将这些数据中的种族差异从预测中去除，并对预测准确性的影响最小。

Oct, 2016