机器学习中测量间接歧视的调查研究
本文介绍一种基于倾向得分分析的原因型歧视方法,并利用回归树学习新的歧视 / 偏袒模式,验证在两个现实世界的数据集上,它可以加强机器学习透明度并探测训练数据和学习算法中的歧视性偏差。
Aug, 2016
介绍数据科学社区应该关注机器学习和数据挖掘过程中潜在的歧视问题,探讨歧视的测量和开发过程中如何改进以减少系统潜在的歧视性,并呼吁数据科学家应该有意识地建模和减少歧视结果的产生。
Jul, 2019
针对敏感应用如医疗保健或刑事司法等领域,本研究旨在解决在预测模型中公平性与准确性的平衡问题,并提出,应该在数据的背景下评估预测结果的公平性,并通过数据收集来解决样本大小或未测量的预测变量所带来的不公平性,同时通过将成本基准的歧视度量分解为偏差,方差和噪音,并提出旨在估计和减少每个术语的行动。最后,本文以收入,死亡率和审查等领域的预测为案例研究,确认这种分析方法的价值,并发现数据收集通常是减少歧视而不牺牲准确性的手段。
May, 2018
本文通过利用因果网络捕捉数据的因果结构,将直接和间接歧视建模为路径特异性效应,并提出了一种有效的算法,用于发现和消除直接和间接歧视,以及保留数据效用。实验结果表明,该方法有效性较高。
Nov, 2016
数据收集中的历史性歧视对弱势群体和个体产生了影响。现有的公平机器学习研究主要致力于减轻模型预测中的歧视倾向,但对于如何追踪数据中存在的偏见却付出了较少的努力,尽管这对公平机器学习的透明度和可解释性非常重要。为了填补这一空白,我们研究了一个新的问题:发现在训练数据中反映偏见 / 偏见的样本。基于现有的公平性概念,我们提出了一个样本偏见准则,并提出了衡量和抵消样本偏见的实用算法。得出的偏见分数提供了历史偏见在数据中的直观样本级归因和说明。在此基础上,我们通过基于样本偏见的最小数据编辑设计了两种公平机器学习策略。它们可以在最小或零的预测效用损失的情况下,减轻群体和个体的不公平现象。对多个真实世界数据集的大量实验和分析证明了我们方法在解释和减轻不公平方面的有效性。代码可在此 URL 获取:https://URL
Jun, 2024
准确测量在基于机器学习的自动决策系统中的歧视是解决子群体和 / 或个体间公平性的重要问题所必需的。本文关注于在生成和 / 或收集训练数据的方式中出现的一类偏见,我们称之为因果偏见,并使用因果关系领域的工具来正式定义和分析此类偏见。本文考虑了四种来源的偏见,即混杂、选择、测量和交互。本文的主要贡献是为每种偏见提供了一个基于模型参数的闭合表达式。这使得分析每种偏见的行为成为可能,特别是在哪些情况下它们不存在,以及在哪些其他情况下它们被最大化。我们希望提供的特征有助于社会更好地理解机器学习应用中偏见的来源。
Oct, 2023
本文阐述了机器学习模型中出现偏见导致算法决策对特定群体或少数群体的歧视的问题,提出了公平学习问题的数学框架,运用标准差异影响指数量化偏见,最终检查了不同方法在二元分类结果中减少偏见的性能,并表明一些直观方法并不有效。这揭示了在训练观测结果包含偏见时,尝试制作公正的机器学习模型可能是一项特别具有挑战性的任务。
Mar, 2020
机器学习和数据驱动算法在决策制定领域的广泛应用已逐年增加,但相关负面影响也随之日益严重。负面数据偏差是其中之一,会对特定群体造成有害后果。为解决偏差带来的负面后果,必须首先认识到其存在,并找到一种能够理解和量化的方法。本文的主要贡献是:(1)提出了一个定义和高效量化数据集相对于保护群体偏差水平的通用算法框架;(2)定义了一种新的偏差度量方法。我们的实验结果在九个公开数据集上得到验证,并进行了理论分析,从而为该问题提供了新的见解。基于我们的方法,我们还推导出一种可能对政策制定者有用的偏差缓解算法。
May, 2024
公平机器学习的早期专注是确保由算法指导的决策是公平的,三个公平定义引起了人们的关注,即反分类,分类平衡和校准,但这三个公平定义都有重大的统计局限性。相比之下,我们认为更倾向于根据最准确的风险估计对类似风险的人进行相似的处理,而不是一定要满足公平的数学定义,并强调这种方法需要大量的努力来构建适当的风险估计。
Jul, 2018