证明 KNN 在数据集偏见存在下的公正性

Jul, 2023

证明 KNN 在数据集偏见存在下的公正性

Certifying the Fairness of KNN in the Presence of Dataset Bias

Yannan Li, Jingbo Wang, Chao Wang

TL;DR我们提出了一种方法，用于证明广泛使用的监督学习算法 k 最近邻（KNN）的分类结果的公平性，假设训练数据可能存在由于对受保护的少数群体的样本进行系统性错误标记而导致的历史偏差。首次基于个体公平性、ε- 公平性和标签翻转公平性三个公平定义的 KNN 公平性认证方法。我们首先定义了 KNN 的公平性认证问题，然后提出了用于复杂算术计算的声音近似方法，该方法用于最先进的 KNN 算法中，旨在将计算结果从具体域提升到抽象域以减少计算成本。通过对在公平性研究文献中广泛使用的六个数据集进行实验评估，我们展示了这种基于抽象解释的技术的有效性。我们还展示了尽管数据集中存在历史偏差，但该方法足够准确以获取大量测试输入的公平性认证。

Abstract

We propose a method for certifying the fairness of the classification result of a widely used supervised learning algorithm, the k-nearest neighbors (KNN), under the assumption that the training data may have his

fairness certification k-nearest neighbors supervised learning protected minority group computational cost

发现论文，激发创造

数据视角下的公平性：机器学习模型认证

本文介绍了一个基于交互和隐私保护测试的框架，该框架允许对任何经过训练的模型进行公平程度的认证，无论其训练过程和架构如何，并且提供了一种加密技术来自动进行公平测试和认证推理，同时隐藏参与者的敏感数据。

Sep, 2020

分布式个体公平性认证

神经网络的分布个体公平性的高效认证界限是可扩展、实用和可靠的算法公平性保证来源。

Nov, 2023

神经网络完美并行公平性认证

该文提出了一种用于分类表格数据的前馈神经网络的因果公平性认证方法，能够准确判定机器学习模型是否有偏差，并在可扩展的精度方面提供了不同的选择。

Dec, 2019

在公平约束下的经验风险最小化

介绍了一种基于经验风险最小化的算法，通过将公平性约束条件融入到学习问题中，实现敏感变量不会不公平地影响分类器的结果，得出了公平性和风险的界限，对核方法进行了特定说明，发现公平性要求意味着正交性约束，此约束可轻松添加到这些方法中，特别是对于线性模型，约束转化为一个简单的数据预处理步骤，实验证明该算法具有实用性，表现优于最先进的方法。

Feb, 2018

抗噪公平分类

本文研究了含有噪声敏感特征的公平机器学习算法，表明当使用均值差异分数作为公平性量度标准时，只需通过调整所需的公平容错率即可仍然学习出公平分类器，该容错率可以通过现有噪声率估计器进行估计，并在两个敏感特征审查案例研究中得到实证有效性。

Jan, 2019

公正和校准

本论文探讨了在不同人群中最小化误差差异和维护校准概率估计之间的紧张关系，并表明校准只与单一误差约束兼容。

Sep, 2017

测量不确定性下分类器的公平性使用 Bernstein Bounds

使用 Bernstein 界限来表示关于偏差估计的不确定性，从而帮助防止分类器被认为是有偏见或无偏见，当没有足够的证据来做出任何一个主张。

Apr, 2020

关于在数据偏差下测试和比较公平分类器

本文针对注入数据偏差的理论模型，从理论和经验上研究了它对公平分类器准确性和公正性的影响，并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验，我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性，并发现少量简单公平技术，如重新加权、指数梯度，在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。

Feb, 2023

学习确证个体公平表示

该论文提出了一种基于潜在表示的证书方法，帮助数据消费者获得现有和新数据点的个体公平性证书，实现了公平性约束和效用之间的平衡，并通过实验评估了该方法在五个真实数据集和多个公平性约束方面的可扩展性和表现力。

Feb, 2020

机器学习模型中的个体公平性验证

本文旨在通过构建验证器来证明一个模型是否符合个体公平。我们针对决策模型与结构化数据的情况进行研究，特别考虑了线性分类器和核多项式 / 径向基函数分类器。实验结果表明，我们提出的算法对公开数据集的评估是可行的。

Jun, 2020