预测模型中潜在的传播采样偏差可证明检测

AAAIFeb, 2023

预测模型中潜在的传播采样偏差可证明检测

Provable Detection of Propagating Sampling Bias in Prediction Models

Pavan Ravishankar, Qingyu Mo, Edward McFowland III, Daniel B. Neill

TL;DR本文研究了在从（可能有偏见的）训练数据中学习预测模型，并通过某种审计方法事后评估公平性的一般性情况，通过定量而非定性地评估数据偏差的下游影响并证明检测的理论保证。

Abstract

With an increased focus on incorporating fairness in machine learning models, it becomes imperative not only to assess and mitigate bias a

fairness machine learning bias data bias auditing method

发现论文，激发创造

样本推断中的系统偏差及其对机器学习的影响

在机器学习模型中，对小众群体的收入水平等指标的预测偏低通常源于样本量过小导致的系统性和方向性统计偏差。

Jul, 2023

机器学习中的低表示和抽样偏差问题探讨

本文介绍了通过采样偏差分析和定义样本大小偏差和代表性偏差，以及探讨借助企图收集欠代表的群体样本来处理歧视的观点。

Jun, 2023

AIM：归因、解释、减轻数据不公平

数据收集中的历史性歧视对弱势群体和个体产生了影响。现有的公平机器学习研究主要致力于减轻模型预测中的歧视倾向，但对于如何追踪数据中存在的偏见却付出了较少的努力，尽管这对公平机器学习的透明度和可解释性非常重要。为了填补这一空白，我们研究了一个新的问题：发现在训练数据中反映偏见 / 偏见的样本。基于现有的公平性概念，我们提出了一个样本偏见准则，并提出了衡量和抵消样本偏见的实用算法。得出的偏见分数提供了历史偏见在数据中的直观样本级归因和说明。在此基础上，我们通过基于样本偏见的最小数据编辑设计了两种公平机器学习策略。它们可以在最小或零的预测效用损失的情况下，减轻群体和个体的不公平现象。对多个真实世界数据集的大量实验和分析证明了我们方法在解释和减轻不公平方面的有效性。代码可在此 URL 获取：https://URL

Jun, 2024

预测公平性的系统评估

研究偏见数据训练中的偏差的缓解方法，分析多种方法在不同数据条件下的性能表现，发现仅基于标准数据集进行评估的公平性研究实践存在局限性。

Oct, 2022

利用扩散扰动衡量计算机视觉中的公平性

通过扩散模型生成多个包含不同种族标签的职业图像集，我们发现使用非高加索标签生成的图像的职业错误分类率显著高于使用高加索标签生成的图像，且部分错误分类表明存在种族偏见。通过计算对不同身份群体预测的真实职业标签的概率标准差，我们测量了模型的公平性。使用这个公平性指标，我们发现在评估的视觉和语言模型之间存在显著差异。我们希望我们的研究展示了使用扩散方法进行公平性评估的潜在价值。

Nov, 2023

我的分类器为什么具有歧视性？

针对敏感应用如医疗保健或刑事司法等领域，本研究旨在解决在预测模型中公平性与准确性的平衡问题，并提出，应该在数据的背景下评估预测结果的公平性，并通过数据收集来解决样本大小或未测量的预测变量所带来的不公平性，同时通过将成本基准的歧视度量分解为偏差，方差和噪音，并提出旨在估计和减少每个术语的行动。最后，本文以收入，死亡率和审查等领域的预测为案例研究，确认这种分析方法的价值，并发现数据收集通常是减少歧视而不牺牲准确性的手段。

May, 2018

自囚于设备：模型如何在表现性预测中引起数据偏差

该研究提出一种分类法，以表征数据中的偏差，并研究了表现预测中的两种典型偏差：分布偏移和选择性标签对性能和公平性的危害，通过真实案例研究了欺诈检测中的不公平问题。

Jun, 2022

少样本回归的不公平性发现和预防

本文通過創建因果貝葉斯知識圖，對機器學習模型中的歷史數據中現有的偏見進行了發現，提出了一種新的基於風險差的算法，以量化每個受保護變量在圖中的歧視影響力，以及一種快速適應的偏差控制方法，在元學習中高效地減少了組的不公平性，最終在合成和實際數據集上進行了廣泛實驗，證明了我們提出的不公平發現和防治方法可以高效地檢測偏見並減輕模型輸出上的偏見以及對訓練樣本量少的未見任務的精度和公平度的泛化。

Sep, 2020

揭示扩散模型中的暴露偏差

扩散模型具有令人印象深刻的生成能力，但其所谓的 “曝光偏差” 问题，即训练和抽样之间的输入不匹配，缺乏深入探索。本文通过首先对抽样分布进行分析建模，然后将每个抽样步骤的预测误差归因为曝光偏差问题的根本原因，对扩散模型中的曝光偏差问题进行了系统研究。此外，我们讨论了此问题的潜在解决方案，并提出了一个直观的度量方法。除了阐明曝光偏差问题，我们还提出了一种简单但有效的无需训练的方法，称为 Epsilon Scaling，以缓解曝光偏差。我们通过缩小网络输出（Epsilon）使抽样轨迹明确地接近训练阶段学习到的向量场，减轻了训练和抽样之间的输入不匹配。针对各种扩散框架（ADM，DDPM/DDIM，LDM），无条件和有条件设置以及确定性与随机抽样的实验验证了我们方法的有效性。

Aug, 2023

通过模型和数据偏差交互理解欺诈检测中的不公平性

机器学习算法应用广泛，但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法，并探究了算法的不公平和精度之间的权衡。实证研究表明，在不同的数据偏见设置下，算法的公平性和精度会受到不同的影响，而简单的预处理干预技术可以提高算法的公平性。

Jul, 2022