May, 2024

一个新的偏差度量的原则方法

TL;DR机器学习和数据驱动算法在决策制定领域的广泛应用已逐年增加,但相关负面影响也随之日益严重。负面数据偏差是其中之一,会对特定群体造成有害后果。为解决偏差带来的负面后果,必须首先认识到其存在,并找到一种能够理解和量化的方法。本文的主要贡献是:(1)提出了一个定义和高效量化数据集相对于保护群体偏差水平的通用算法框架;(2)定义了一种新的偏差度量方法。我们的实验结果在九个公开数据集上得到验证,并进行了理论分析,从而为该问题提供了新的见解。基于我们的方法,我们还推导出一种可能对政策制定者有用的偏差缓解算法。