leave-one-out 不公平
通过研究我们发现,在机器学习模型的性能评估中,交叉验证方法会引入分布偏差现象,导致性能评估及超参数优化受到负面影响。为了解决这个问题,我们提出了一个通用的校正分布偏差的交叉验证方法,并通过合成模拟和多个已发布的实验验证结果。
Jun, 2024
机器学习算法应用广泛,但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法,并探究了算法的不公平和精度之间的权衡。实证研究表明,在不同的数据偏见设置下,算法的公平性和精度会受到不同的影响,而简单的预处理干预技术可以提高算法的公平性。
Jul, 2022
本文通過創建因果貝葉斯知識圖,對機器學習模型中的歷史數據中現有的偏見進行了發現,提出了一種新的基於風險差的算法,以量化每個受保護變量在圖中的歧視影響力,以及一種快速適應的偏差控制方法,在元學習中高效地減少了組的不公平性,最終在合成和實際數據集上進行了廣泛實驗,證明了我們提出的不公平發現和防治方法可以高效地檢測偏見並減輕模型輸出上的偏見以及對訓練樣本量少的未見任務的精度和公平度的泛化。
Sep, 2020
研究算法公平性和隐私在机器学习中的应用,分析了公平性对训练数据信息泄露的影响,发现公平性会牺牲一部分隐私权,特别是对弱势群体。同时,训练数据的偏差越大,为了弱势群体的公平性所付出的隐私成本也越高。
Nov, 2020
为保证公正性,公平机器学习算法致力于消除不同群体间的行为差异,但是研究表明,在训练数据存在偏差的情况下,将同等的重视不同规模和分布的不同群体,可能会与鲁棒性相冲突,攻击者可以通过对样本和标签的控制来攻击群体公平性机器学习,从而在测试数据上显著降低测试准确率,本文评估了多种算法和基准数据集的攻击,分析了公平机器学习的鲁棒性。
Jun, 2020
通过预定义的概念进行反事实干预,通过影响函数计算培训样本对模型的不公平的影响,帮助实践者理解观察到的不公平现象并修复其培训数据,从而实现检测错误标记、修复不平衡表示、检测针对公平性的污染攻击等其他应用。
Jun, 2023