Feb, 2024

通过预处理、中处理和后处理实现具有线性差异约束的贝叶斯最优公平分类

TL;DR机器学习算法在受保护群体上可能存在不公平影响。为解决此问题,我们开发了贝叶斯最优公平分类的方法,旨在在给定的群体公平约束条件下最小化分类错误。我们介绍了线性差异度量的概念,这些度量是概率分类器的线性函数;以及双线性差异度量,这些度量也是群体回归函数的线性函数。我们证明了几种流行的差异度量 - 从人口统计平衡、机会平等到预测平等的偏离 - 都是双线性的。我们通过在单一线性差异度量下揭示与 Neyman-Pearson 引理的联系,找到了贝叶斯最优公平分类器的形式。对于双线性差异度量,贝叶斯最优公平分类器变为群体阈值规则。我们的方法还可以处理多个公平性约束(如均衡的几率)以及在预测阶段无法使用受保护属性的常见情况。借助我们的理论结果,我们设计了在双线性差异约束下学习公平贝叶斯最优分类器的方法。我们的方法涵盖了三种流行的公平感知分类方法,包括预处理(公平上采样和下采样),进行中处理(公平成本敏感分类)和后处理(公平插件规则)。我们的方法在实现直接控制差异的同时,实现了接近最优的公平性和准确性权衡。实验证明,我们的方法比现有算法更可取。