样本推断中的系统偏差及其对机器学习的影响
该研究使用机器学习模型对人事评估进行建模,探讨训练数据中负面影响比率对模型预测结果的影响,发现训练数据中负面影响比率与模型异常影响呈线性关系,但是从训练数据中去除负面影响只能略微减少异常影响,同时会对模型准确性产生负面影响。
Apr, 2023
本文阐述了机器学习模型中出现偏见导致算法决策对特定群体或少数群体的歧视的问题,提出了公平学习问题的数学框架,运用标准差异影响指数量化偏见,最终检查了不同方法在二元分类结果中减少偏见的性能,并表明一些直观方法并不有效。这揭示了在训练观测结果包含偏见时,尝试制作公正的机器学习模型可能是一项特别具有挑战性的任务。
Mar, 2020
本文研究了在从(可能有偏见的)训练数据中学习预测模型,并通过某种审计方法事后评估公平性的一般性情况,通过定量而非定性地评估数据偏差的下游影响并证明检测的理论保证。
Feb, 2023
以人工智能和机器学习为基础,本文研究了预测后推断问题的统计挑战,包括预测结果与真实结果之间的关系、机器学习模型对训练数据的鲁棒性以及将预测的偏差和不确定性传播到最终推断过程中。同时与传统领域的相关研究进行对比,揭示了设计在经典和现代推断问题中的作用。
Jan, 2024
本文介绍一种基于倾向得分分析的原因型歧视方法,并利用回归树学习新的歧视 / 偏袒模式,验证在两个现实世界的数据集上,它可以加强机器学习透明度并探测训练数据和学习算法中的歧视性偏差。
Aug, 2016
本文通過創建因果貝葉斯知識圖,對機器學習模型中的歷史數據中現有的偏見進行了發現,提出了一種新的基於風險差的算法,以量化每個受保護變量在圖中的歧視影響力,以及一種快速適應的偏差控制方法,在元學習中高效地減少了組的不公平性,最終在合成和實際數據集上進行了廣泛實驗,證明了我們提出的不公平發現和防治方法可以高效地檢測偏見並減輕模型輸出上的偏見以及對訓練樣本量少的未見任務的精度和公平度的泛化。
Sep, 2020
机器学习算法在个性化医学中具有潜力,但其临床应用仍受到限制。研究表明,样本选择偏差(SSB)是限制其采用的一个关键因素。本研究通过检验 SSB 对机器学习算法性能的影响,指出了潜在的风险,并提出了一种新的研究方向,该方向基于目标人群的识别而非偏差校正来解决 SSB 问题。实验结果表明,SSB 可能导致算法在目标人群上的性能大幅下降,并且对于从研究人群中选取的代表性和非选取患者的目标子人群的性能存在显著差异。此外,我们提出的技术在不同数据集大小、事件率和选择率的各种场景下展现出稳健性,优于现有的偏差校正技术。
May, 2024