机器学习中的低表示和抽样偏差问题探讨
准确测量在基于机器学习的自动决策系统中的歧视是解决子群体和 / 或个体间公平性的重要问题所必需的。本文关注于在生成和 / 或收集训练数据的方式中出现的一类偏见,我们称之为因果偏见,并使用因果关系领域的工具来正式定义和分析此类偏见。本文考虑了四种来源的偏见,即混杂、选择、测量和交互。本文的主要贡献是为每种偏见提供了一个基于模型参数的闭合表达式。这使得分析每种偏见的行为成为可能,特别是在哪些情况下它们不存在,以及在哪些其他情况下它们被最大化。我们希望提供的特征有助于社会更好地理解机器学习应用中偏见的来源。
Oct, 2023
机器学习算法在个性化医学中具有潜力,但其临床应用仍受到限制。研究表明,样本选择偏差(SSB)是限制其采用的一个关键因素。本研究通过检验 SSB 对机器学习算法性能的影响,指出了潜在的风险,并提出了一种新的研究方向,该方向基于目标人群的识别而非偏差校正来解决 SSB 问题。实验结果表明,SSB 可能导致算法在目标人群上的性能大幅下降,并且对于从研究人群中选取的代表性和非选取患者的目标子人群的性能存在显著差异。此外,我们提出的技术在不同数据集大小、事件率和选择率的各种场景下展现出稳健性,优于现有的偏差校正技术。
May, 2024
该研究使用机器学习模型对人事评估进行建模,探讨训练数据中负面影响比率对模型预测结果的影响,发现训练数据中负面影响比率与模型异常影响呈线性关系,但是从训练数据中去除负面影响只能略微减少异常影响,同时会对模型准确性产生负面影响。
Apr, 2023
数据收集中的历史性歧视对弱势群体和个体产生了影响。现有的公平机器学习研究主要致力于减轻模型预测中的歧视倾向,但对于如何追踪数据中存在的偏见却付出了较少的努力,尽管这对公平机器学习的透明度和可解释性非常重要。为了填补这一空白,我们研究了一个新的问题:发现在训练数据中反映偏见 / 偏见的样本。基于现有的公平性概念,我们提出了一个样本偏见准则,并提出了衡量和抵消样本偏见的实用算法。得出的偏见分数提供了历史偏见在数据中的直观样本级归因和说明。在此基础上,我们通过基于样本偏见的最小数据编辑设计了两种公平机器学习策略。它们可以在最小或零的预测效用损失的情况下,减轻群体和个体的不公平现象。对多个真实世界数据集的大量实验和分析证明了我们方法在解释和减轻不公平方面的有效性。代码可在此 URL 获取:https://URL
Jun, 2024
本文阐述了机器学习模型中出现偏见导致算法决策对特定群体或少数群体的歧视的问题,提出了公平学习问题的数学框架,运用标准差异影响指数量化偏见,最终检查了不同方法在二元分类结果中减少偏见的性能,并表明一些直观方法并不有效。这揭示了在训练观测结果包含偏见时,尝试制作公正的机器学习模型可能是一项特别具有挑战性的任务。
Mar, 2020
本文通过为潜在的偏见和数据模型中的错误提供分类法,目的是弥合过去关于偏见的文献以及在机器学习中缺少对其根源或原因的研究。调查分析了机器学习(ML)流程中超过四十个潜在的偏见来源,并且为每个来源提供了明确的示例。通过理解机器学习中偏见的来源和后果,可以开发出更好地检测和减轻偏见的方法,从而得到更公正、更透明和更准确的 ML 模型。
Aug, 2023
本研究旨在检查现有知识中关于机器学习模型中的偏见和不公平的研究,并识别减弱算法不公平和偏差的方法、公平性度量和支持工具。经过系统文献综述,发现了 40 篇可用于 Scopus、IEEE Xplore, Web of Science 和 Google Scholar 知识库的文章。结果表明,针对 ML 技术的多种偏见和不公平检测与减轻方法,在文献中定义了明确的度量标准,可以突出不同的度量标准。因此建议进一步研究,以定义在每种情况下应采用的技术和指标,以标准化并确保机器学习模型的公正性,从而允许最适当的度量标准来检测偏见和不公平。
Feb, 2022
通过数学和模拟,作者表明现有的用于测量群体间的模型性能差异的度量大多是基于统计偏差的估计量,因此提出了一种 “双校正” 方差估计器,提供了模型性能在群体间变化的无偏估计和不确定性量化,这种方法在现实数据集上的应用表明,在统计偏差的影响下,群组间的性能差异不再显著。
May, 2022
机器学习算法应用广泛,但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法,并探究了算法的不公平和精度之间的权衡。实证研究表明,在不同的数据偏见设置下,算法的公平性和精度会受到不同的影响,而简单的预处理干预技术可以提高算法的公平性。
Jul, 2022