Jul, 2023

证明 KNN 在数据集偏见存在下的公正性

TL;DR我们提出了一种方法,用于证明广泛使用的监督学习算法 k 最近邻(KNN)的分类结果的公平性,假设训练数据可能存在由于对受保护的少数群体的样本进行系统性错误标记而导致的历史偏差。首次基于个体公平性、ε- 公平性和标签翻转公平性三个公平定义的 KNN 公平性认证方法。我们首先定义了 KNN 的公平性认证问题,然后提出了用于复杂算术计算的声音近似方法,该方法用于最先进的 KNN 算法中,旨在将计算结果从具体域提升到抽象域以减少计算成本。通过对在公平性研究文献中广泛使用的六个数据集进行实验评估,我们展示了这种基于抽象解释的技术的有效性。我们还展示了尽管数据集中存在历史偏差,但该方法足够准确以获取大量测试输入的公平性认证。