测量不确定性下分类器的公平性使用 Bernstein Bounds

ACLApr, 2020

测量不确定性下分类器的公平性使用 Bernstein Bounds

Is Your Classifier Actually Biased? Measuring Fairness under Uncertainty with Bernstein Bounds

Kawin Ethayarajh

TL;DR使用 Bernstein 界限来表示关于偏差估计的不确定性，从而帮助防止分类器被认为是有偏见或无偏见，当没有足够的证据来做出任何一个主张。

Abstract

Most nlp datasets are not annotated with protected attributes such as gender, making it difficult to measure classification bias using standard measures of fairness (e.g., equal opportunity). However, manually an

nlp fairness bernstein bounds bias estimation confidence interval

发现论文，激发创造

数据受限二元分类中平衡公平性与准确性

在处理敏感信息的应用程序中，数据限制可能会对机器学习（ML）分类器的可用数据施加限制，本文提出了一个框架，模拟了在四种实际情景下准确性和公平性之间的折衷，以确定在各种数据限制情况下，贝叶斯分类器的准确性受到的影响是如何的。

Mar, 2024

利用概率受保护特征估计和实现常规公平度量

在有限的受保护属性标签访问情况下，本文开发了测量和减少公平违规的方法，提出了估计现有模型的常见公平度量和解决约束非凸优化问题以限制公平违规的模型训练技术，并且相比其他受限受保护属性的公平优化方法，在减小公平度的同时减少了公平性和准确性的权衡。

Oct, 2023

公平性不确定性量化：您有多确定该模型是公平的？

本文提出了一种在线 multiplier bootstrap 方法，用于构建置信区间，以评估通过在线 SGD 类型算法训练具有 Disparate Impact 和 Disparate Mistreatment 意识的线性二元分类器的公平性，并在合成和实际数据集上说明了其结果。

Apr, 2023

公平度量分数是否足以评估机器学习中的歧视偏见？

论文研究了当前用于评估机器学习算法在文本数据上进行性别歧视的不足之处的度量方法，着重于 Bios 数据集上的职业预测任务，研究表明常用的性别偏差指数在训练集样本较小时具有不可靠性。

Jun, 2023

如何评估公平度？无标签数据和贝叶斯推断的公平度度量信任性评估

使用贝叶斯框架对少量带有标签的数据进行无标签数据增强，以更准确低偏差的方式评估群组公平问题，鉴于标签样本，我们提议使用一种层次潜在变量模型，估计每组未标记样本的校准得分，并证明了我们的方法在多个公平数据集，敏感属性和预测模型中具有显著的一致的估计误差降低，表明了使用无标签数据和贝叶斯推理的好处来评估预测模型的公平性。

Oct, 2020

一种分布鲁棒的公平分类方法

提出了一种具有不公平惩罚的分布鲁棒逻辑回归模型，可以使用 Wasserstein ball 来对分布不确定性进行建模以实现公平机会并提高公平性。

Jul, 2020

关于在数据偏差下测试和比较公平分类器

本文针对注入数据偏差的理论模型，从理论和经验上研究了它对公平分类器准确性和公正性的影响，并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验，我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性，并发现少量简单公平技术，如重新加权、指数梯度，在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。

Feb, 2023

我的分类器为什么具有歧视性？

针对敏感应用如医疗保健或刑事司法等领域，本研究旨在解决在预测模型中公平性与准确性的平衡问题，并提出，应该在数据的背景下评估预测结果的公平性，并通过数据收集来解决样本大小或未测量的预测变量所带来的不公平性，同时通过将成本基准的歧视度量分解为偏差，方差和噪音，并提出旨在估计和减少每个术语的行动。最后，本文以收入，死亡率和审查等领域的预测为案例研究，确认这种分析方法的价值，并发现数据收集通常是减少歧视而不牺牲准确性的手段。

May, 2018

公平性评估中的不确定性：尽管波动仍能保持稳定的结论

文章提出了一个新的评估算法性能及公平性指标的贝叶斯框架 ——“不确定性事关框架”，可以用于稳定的偏见感知性能评估，并在 K 折交叉验证过程中进行了应用。实验结果表明，相比于经典的评估框架，该方法在信息和稳定性方面有更大的优势。

Feb, 2023

公平约束对偏见数据恢复的辅助程度有多大？

通过阈值为基础的最优公平分类器的特征，本文给出了 Blum & Stangl (2019) 结果的另一证明，并证明了其对于偏倚参数的条件既是必要的又是充分的。此外，我们还证明了对于任意数据分布，只要优化准确分类器在假设类别中是公平和稳健的，那么在偏倚分布上进行公平分类就可以恢复该分类器，前提是偏倚参数满足一定的简单条件。

Dec, 2023