背景对公正性的影响 —— 空间分布变化效应的案例研究

Jun, 2022

背景对公正性的影响 —— 空间分布变化效应的案例研究

Context matters for fairness -- a case study on the effect of spatial distribution shifts

Siamak Ghodsi, Harith Alani, Eirini Ntoutsi

TL;DR本研究采用美国人口普查数据集的案例分析，阐述了数据分布偏移对模型预测性能和公平性能的影响，指出了模型部署前必须保证模型对数据分布的鲁棒性的重要性。

Abstract

With the ever growing involvement of data-driven ai-based decision making technologies in our daily social lives, the fairness of these systems is becoming a crucial phenomenon. However, an important and often ch

data-driven ai fairness distribution shifts american census datasets robustness

发现论文，激发创造

分布转移下的监督算法公平性：一项综述

监督的公平感知机器学习在面临数据分布从源领域到目标领域的变化时，是一个新兴的领域，解决了在实现公正和无偏预测方面的挑战。本综述提供各种类型的分布变化的总结，并全面调查了现有方法，重点介绍了文献中常用的六种方法。此外，本综述列出了可用于经验研究的公开数据集和评估指标。我们进一步探讨了与相关研究领域的相互连接，讨论了重大挑战，并确定了未来研究的潜在方向。

Feb, 2024

一种信息理论方法应对分布转换

从信息理论的角度，本文探讨了机器学习模型在实际应用中遭遇的数据偏移问题，比较了近期领域泛化与公正分类研究中一些最有前途的目标。根据我们的理论分析和实证评估，我们得出结论，模型选择过程需要根据观察到的数据、纠正因素和数据生成过程的结构进行认真考虑的指导。

Jun, 2021

公平空间索引：群体空间公正的范式

本文利用 KD 树算法解决机器学习中地理位置偏差带来的公平问题，实验结果表明该算法显著提高了公平性并保持了高的学习精度。

Feb, 2023

公正中心技术简报：分布偏移的定义和检测

在机器学习任务中，分布偏移是一种常见情况，其表示训练模型使用的数据与实际应用模型的数据不同。本文旨在定义和检测教育环境中的分布偏移，关注标准预测问题，即学习一个以输入序列为输入（预测变量）X=(x_1,x_2,...,x_m) 并生成输出 Y=f (X) 的模型。

May, 2024

领域自适应遇到个体公平，他们相处融洽

本文论述了算法公正与数据分布的关系，即算法公正干预可以帮助机器学习模型克服数据分布的偏差，并且领域自适应方法可以减轻算法偏差。

May, 2022

协变量漂移下的稳健公平性

通过考虑协变量变化，提出了一种对于未知数据能够保持公正与性能的预测模型的方法。

Oct, 2020

分布变化下的图公平学习

图神经网络（GNNs）在图结构化数据上取得了显著的性能。然而，GNNs 可能从训练数据中继承偏见，并根据敏感属性（如性别和种族）做出具有歧视性的预测。最近，对于 GNNs 的公平性保证引起了越来越多的关注，但是所有这些研究都基于一个假设，即训练和测试数据来自同一个分布，即训练数据和测试数据来自同一张图。分布变化会导致图公平性性能降低吗？分布变化如何影响图公平性学习？从理论角度上来说，这些开放性的问题在很大程度上是未经探索的。为了回答这些问题，我们首先从理论上确定了决定图偏见的因素。随后，我们探索了影响测试图上公平性的因素，其中一个值得注意的因素是训练图和生成图之间某些群体的表示距离。在我们的理论分析的启发下，我们提出了我们的框架 FatraGNN。具体而言，为了保证在未知的测试图上的公平性表现，我们提出了一个图生成器，可以产生具有显著偏见和不同分布的多个图。然后，我们在训练图和生成图之间最小化每个特定群体的表示距离。这使得我们的模型能够在具有显著偏见的生成图上实现高分类和公平性性能，从而有效处理未知的测试图。在真实世界和半合成数据集上的实验证明了我们模型在准确性和公平性方面的有效性。

Jan, 2024

NLP 中的公正性再概念化：以印度为例

本文旨在研究印度社会准则在 NLP 的公正性中的作用，通过对印度社会背景、资源以及文化价值观的分析，建立公正性评估模型，探讨预测偏见和社会刻板印象的存在，并提出改进 NLP 公正性的全面研究议程，为其他地缘文化背景的研究提供借鉴。

Sep, 2022

即使是微小的相关性和多样性变化也会导致数据集偏差问题

本文针对分布转移对深度学习模型性能和可靠性的影响，研究了两种类型的分布转移：多样性转移和相关性转移，并提出了一种综合协议来分析这两种转移。应用我们的方法到一个真实的皮肤癌分类问题，最终有三个发现：模型在低偏差情况下仍学习和传播与转移相关的内容；模型学习了强健的特征但仍使用其他的特征；多样性转移可以降低偏差模型对于与转移相关的特征的依赖性。

May, 2023

地理空间差异：巴黎房地产价格案例研究

通过提出一个工具包，我们着重强调了在预测模型中识别和纠正偏见和校准错误的关键需求，特别是当算法变得更加复杂和难以解释的情况下，以解决由地理信息引起的偏见问题。我们使用巴黎房地产数据集来说明我们的方法，并审查选择地理聚合水平对公平性和校准度量的影响。

Jan, 2024