Dec, 2023

偏见缓解的连续效应解释

TL;DR机器学习系统中,偏见缓解方法旨在使特权组和非特权组的结果更加公平。本文旨在对应用缓解干预措施时受影响的群体进行特征化,将干预效果视为分类任务,并学习可解释的元分类器以识别具有改变结果的群体。我们检验了在模型生命周期的不同阶段工作的一系列偏见缓解策略,并在实证上证明了我们的元分类器能够揭示受影响的群体。此外,我们展示了所有测试过的缓解策略对部分人群产生了负面影响,即仅因缓解措施而获得不利结果的人群。尽管在公平度量指标上有所改善,但我们使用这些结果作为基础,主张对超出聚合指标的静态缓解干预措施进行更加谨慎的审查。