移除偏见数据以提高公平性和准确性
计算机决策系统在许多日常生活的方面得到广泛应用,但其中可能存在性别、种族或其他偏见问题。本研究提出一种鲁棒的方法,通过真实世界数据提取出表征人口平衡和真实性的数据集,用于训练分类器,并测试其泛化能力,证实计算机辅助决策中不存在明示或隐含偏见。
Sep, 2023
数据收集中的历史性歧视对弱势群体和个体产生了影响。现有的公平机器学习研究主要致力于减轻模型预测中的歧视倾向,但对于如何追踪数据中存在的偏见却付出了较少的努力,尽管这对公平机器学习的透明度和可解释性非常重要。为了填补这一空白,我们研究了一个新的问题:发现在训练数据中反映偏见 / 偏见的样本。基于现有的公平性概念,我们提出了一个样本偏见准则,并提出了衡量和抵消样本偏见的实用算法。得出的偏见分数提供了历史偏见在数据中的直观样本级归因和说明。在此基础上,我们通过基于样本偏见的最小数据编辑设计了两种公平机器学习策略。它们可以在最小或零的预测效用损失的情况下,减轻群体和个体的不公平现象。对多个真实世界数据集的大量实验和分析证明了我们方法在解释和减轻不公平方面的有效性。代码可在此 URL 获取:https://URL
Jun, 2024
本研究拟定了 Fair-SMOTE 算法以解决自主决策中可能存在的偏见以及带来的问题,通过消除偏见标签、平衡内部分布使得基于敏感属性的示例在正负两类中均等地分布,从而提高了性能表现,并被证实是一种成功的偏差缓解方法。
May, 2021
通过对房屋贷款申请决策的真实数据添加反事实(模拟)种族偏见,本文展示了即使没有将族裔作为预测变量,机器学习模型(XGBoost)仍然会重复这种偏见。接下来比较了几种去偏方法:禁止变量的平均值、在禁止变量中选择最优预测(一种新方法)以及同时最小化误差和预测与禁止变量之间的关联。去偏可以恢复部分原始决策,但结果对于偏见是否通过代理方式产生是敏感的。
May, 2024
机器学习算法应用广泛,但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法,并探究了算法的不公平和精度之间的权衡。实证研究表明,在不同的数据偏见设置下,算法的公平性和精度会受到不同的影响,而简单的预处理干预技术可以提高算法的公平性。
Jul, 2022
本文阐述了机器学习模型中出现偏见导致算法决策对特定群体或少数群体的歧视的问题,提出了公平学习问题的数学框架,运用标准差异影响指数量化偏见,最终检查了不同方法在二元分类结果中减少偏见的性能,并表明一些直观方法并不有效。这揭示了在训练观测结果包含偏见时,尝试制作公正的机器学习模型可能是一项特别具有挑战性的任务。
Mar, 2020
通过引入多目标优化问题来平衡公平性和数据质量,我们提出了一种找到帕累托最优解的方法,以消除偏见缓解技术对数据集的剔除特定数据点所带来的信任问题,并保证子集对整体人群的公平性、组覆盖率和最小数据损失。
May, 2024
本文提出了通过从可允许的训练数据中去除保护变量的所有信息来消除预测模型偏见的方法,并将其应用于罪犯记录的数据集以产生种族中立的再逮捕预测方案,证明了将种族作为协变量省略的方式仍导致存在种族差异,并且证明了应用我们提出的方法可以将这些数据中的种族差异从预测中去除,并对预测准确性的影响最小。
Oct, 2016