机器学习软件中的偏见:为什么?怎样?该怎么办?
本文展示了在真实世界中基于 40 个高评分 Kaggle 模型的公平性评估及其 7 种缓解技术的实证研究。结果发现,部分优化技术会导致模型失公,尽管机器学习库中有公平控制机制,但这些机制未被记录。最佳的降低失公的方法往往存在权衡和代价.
May, 2020
该研究对机器学习分类器的 17 种生动代表性偏差缓解方法进行了综合性的实证研究,在 8 种广泛采用的软件决策任务中应用了 11 种 ML 性能度量(例如,准确性)、4 种公平度量以及 20 种公平 - 性能权衡评估。在分析过程中,作者发现,无法在所有情境下达到最佳公平 - 性能平衡。
Jul, 2022
这篇文章介绍了机器学习中的社会偏见和公平性问题,总结了预处理、处理和后处理等多种方法,包含二分类、回归、推荐系统、无监督学习和自然语言处理等多个方面,同时提供了多个开源库。最后,列举了公平性研究的四个难题。
Oct, 2020
论文提出了一种基于两阶段最小二乘法的公平机器学习算法,能够有效处理数据中敏感属性与非敏感属性相关的不公平问题, 其独特之处在于该算法针对回归模型的不公平问题也能做出有效处理,并且能够解决数字敏感属性的问题,经实验验证表现卓越。
Oct, 2017
机器学习算法应用广泛,但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法,并探究了算法的不公平和精度之间的权衡。实证研究表明,在不同的数据偏见设置下,算法的公平性和精度会受到不同的影响,而简单的预处理干预技术可以提高算法的公平性。
Jul, 2022
本研究提出了一种新颖的方法来使用自动机器学习技术来减轻偏见,并通过改进 AutoML 的默认优化函数和将公平目标纳入其中来实现这一目标,使偏见得到很好的缓解而几乎不会带来精度损失,同时还提出了一种公平感知的搜索空间修剪方法,以减少计算成本和修复时间。通过在四个公平问题和 16 个不同的机器学习模型上进行评估,发现本研究的方法在修复成败中有着显著的改进,成功地修复了 60 个错误案例,而现有的偏差减轻技术只修复了 44 个错误案例。
Jun, 2023
数据收集中的历史性歧视对弱势群体和个体产生了影响。现有的公平机器学习研究主要致力于减轻模型预测中的歧视倾向,但对于如何追踪数据中存在的偏见却付出了较少的努力,尽管这对公平机器学习的透明度和可解释性非常重要。为了填补这一空白,我们研究了一个新的问题:发现在训练数据中反映偏见 / 偏见的样本。基于现有的公平性概念,我们提出了一个样本偏见准则,并提出了衡量和抵消样本偏见的实用算法。得出的偏见分数提供了历史偏见在数据中的直观样本级归因和说明。在此基础上,我们通过基于样本偏见的最小数据编辑设计了两种公平机器学习策略。它们可以在最小或零的预测效用损失的情况下,减轻群体和个体的不公平现象。对多个真实世界数据集的大量实验和分析证明了我们方法在解释和减轻不公平方面的有效性。代码可在此 URL 获取:https://URL
Jun, 2024
本研究探讨了 12 种顶级的偏差缓解方法,讨论其性能,基于 5 种不同的公平度量标准、实现的准确性和金融机构的潜在利润。我们的研究结果表明,在保留准确性和利润的前提下实现公平存在困难,同时突出了一些最佳和最差的表现,并有助于实验机器学习和其工业应用之间的联系。
Sep, 2022
存在情况下,偏见缓解技术能够更准确的模型,在无偏数据上测量时。我们通过对偏见类型和缓解技术的效果建立关系来解决这一问题,并用理论分析来解释实验结果,并展示最小化公平度量并不一定会产生最公平的分布。
Mar, 2024