背景对公正性的影响 —— 空间分布变化效应的案例研究
监督的公平感知机器学习在面临数据分布从源领域到目标领域的变化时,是一个新兴的领域,解决了在实现公正和无偏预测方面的挑战。本综述提供各种类型的分布变化的总结,并全面调查了现有方法,重点介绍了文献中常用的六种方法。此外,本综述列出了可用于经验研究的公开数据集和评估指标。我们进一步探讨了与相关研究领域的相互连接,讨论了重大挑战,并确定了未来研究的潜在方向。
Feb, 2024
从信息理论的角度,本文探讨了机器学习模型在实际应用中遭遇的数据偏移问题,比较了近期领域泛化与公正分类研究中一些最有前途的目标。根据我们的理论分析和实证评估,我们得出结论,模型选择过程需要根据观察到的数据、纠正因素和数据生成过程的结构进行认真考虑的指导。
Jun, 2021
在机器学习任务中,分布偏移是一种常见情况,其表示训练模型使用的数据与实际应用模型的数据不同。本文旨在定义和检测教育环境中的分布偏移,关注标准预测问题,即学习一个以输入序列为输入(预测变量)X=(x_1,x_2,...,x_m) 并生成输出 Y=f (X) 的模型。
May, 2024
图神经网络(GNNs)在图结构化数据上取得了显著的性能。然而,GNNs 可能从训练数据中继承偏见,并根据敏感属性(如性别和种族)做出具有歧视性的预测。最近,对于 GNNs 的公平性保证引起了越来越多的关注,但是所有这些研究都基于一个假设,即训练和测试数据来自同一个分布,即训练数据和测试数据来自同一张图。分布变化会导致图公平性性能降低吗?分布变化如何影响图公平性学习?从理论角度上来说,这些开放性的问题在很大程度上是未经探索的。为了回答这些问题,我们首先从理论上确定了决定图偏见的因素。随后,我们探索了影响测试图上公平性的因素,其中一个值得注意的因素是训练图和生成图之间某些群体的表示距离。在我们的理论分析的启发下,我们提出了我们的框架 FatraGNN。具体而言,为了保证在未知的测试图上的公平性表现,我们提出了一个图生成器,可以产生具有显著偏见和不同分布的多个图。然后,我们在训练图和生成图之间最小化每个特定群体的表示距离。这使得我们的模型能够在具有显著偏见的生成图上实现高分类和公平性性能,从而有效处理未知的测试图。在真实世界和半合成数据集上的实验证明了我们模型在准确性和公平性方面的有效性。
Jan, 2024
本文旨在研究印度社会准则在 NLP 的公正性中的作用,通过对印度社会背景、资源以及文化价值观的分析,建立公正性评估模型,探讨预测偏见和社会刻板印象的存在,并提出改进 NLP 公正性的全面研究议程,为其他地缘文化背景的研究提供借鉴。
Sep, 2022
本文针对分布转移对深度学习模型性能和可靠性的影响,研究了两种类型的分布转移:多样性转移和相关性转移,并提出了一种综合协议来分析这两种转移。应用我们的方法到一个真实的皮肤癌分类问题,最终有三个发现:模型在低偏差情况下仍学习和传播与转移相关的内容;模型学习了强健的特征但仍使用其他的特征;多样性转移可以降低偏差模型对于与转移相关的特征的依赖性。
May, 2023
通过提出一个工具包,我们着重强调了在预测模型中识别和纠正偏见和校准错误的关键需求,特别是当算法变得更加复杂和难以解释的情况下,以解决由地理信息引起的偏见问题。我们使用巴黎房地产数据集来说明我们的方法,并审查选择地理聚合水平对公平性和校准度量的影响。
Jan, 2024