通过正交投影的迭代过程,可以量化黑盒预测模型对其输入属性的相对依赖性,进而评估这种模型的公平性或歧视程度。
Nov, 2016
研究提出了一个信息理论框架来设计公平的预测器,以在监督学习环境中防止对指定敏感属性的歧视。使用平等的机会作为歧视标准,这要求在实际标签的条件下,预测应独立于受保护属性。同时确保公平和泛化,将数据压缩到辅助变量,再通过贝叶斯决策规则得到最终预测器。
Jan, 2018
介绍了如何通过安全多方计算的方法,加密敏感属性,学习一个基于结果的公平模型,而无需揭示个人敏感信息,从而避免种族或性别等敏感属性对机器学习模型造成的不公平问题。
Jun, 2018
在实现算法公平性方面存在多个实际挑战,包括数据集中受保护属性的可用性或可靠性。本研究首次对公平分类算法进行了头对头的研究,以比较基于属性、容忍噪声和盲目属性的算法在预测性和公平性两个方面的表现。我们通过对四个真实数据集和合成扰动的案例研究来评估这些算法,发现盲目属性和容忍噪声的公平分类器在受保护属性存在噪声的情况下,可能实现与基于属性的算法类似的性能水平。然而,在实践中实现这些算法需要谨慎处理。本研究为在受保护属性存在噪声或部分可用的场景中使用公平分类算法提供了实践的启示。
Jul, 2023
通过减少个人名称的词嵌入与真实职业预测概率的相关性,以消除词嵌入中所编码的社会偏见,提出了一种方法,无需访问受保护属性,仅在训练期间需要访问个人名称,从而在职业分类中减少种族和性别偏见。
Apr, 2019
本研究提出了一种针对监督学习中指定敏感属性的歧视判据,结合 FICO 信用评分案例研究来说明该判据是如何通过调整学习预测器的方式达到消除歧视的目的。同时,本文研究了基于被遗忘的测试方式定义和识别偏见的固有限制。
Oct, 2016
该研究论文对多个受保护属性的公平性改进进行了广泛研究,涵盖了 11 种最先进的公平性改进方法。结果显示,针对单个受保护属性改进公平性会大幅降低对未考虑的受保护属性的公平性。此外,在处理多个受保护属性时,精确率和召回率的影响是单个属性的 5 倍和 8 倍,在以准确性作为机器学习性能指标的将来公平性研究中,这有重要的影响。
在有限的受保护属性标签访问情况下,本文开发了测量和减少公平违规的方法,提出了估计现有模型的常见公平度量和解决约束非凸优化问题以限制公平违规的模型训练技术,并且相比其他受限受保护属性的公平优化方法,在减小公平度的同时减少了公平性和准确性的权衡。
Oct, 2023
提出了新的歧视衡量方法,并介绍了一种新的偏见减轻方法,实验证明了这种策略可以减少多个保护属性的数据集中的歧视。
May, 2024
研究表明,要确保模型开发人员无法通过查询公平度量来了解个体的受保护属性,提出了一个新技术 Attribute-Conceal 来实现差分隐私,避免了普通机制的局限性。
Nov, 2022