数据集代表性与下游任务公平

Jun, 2024

Dataset Representativeness and Downstream Task Fairness

Victor Borza, Andrew Estornell, Chien-Ju Ho, Bradley Malin, Yevgeniy Vorobeychik

TL;DR数据集的代表性与分类器公平性之间存在复杂的关系；平衡这两个量需要模型和数据集设计者特别注意。

Abstract

Our society collects data on people for a wide range of applications, from building a census for policy evaluation to running meaningful clinical trials. To collect data, we typically sample individuals with the goal of accurately representing a population of interest. However, current sampling processes often collect data opportunistically from data sources

dataset representativeness group-fairness classifier fairness algorithmic bias sampling strategies

发现论文，激发创造

机器学习和人工智能系统的数据可代表性

本文研究数据的代表性对于通过机器学习模型进行数据推断至关重要，探讨了模型中的偏见和公正性，以及与输入数据固有偏见的关系。本文介绍了三个可测量概念，以帮助集中观点并评估不同的数据样本。通过对美国人口普查数据的实证演示，我们评估了这些概念之间的对比。最后，我们提出了一个问题框架，帮助设计人员在数据文档模板中考虑数据的代表性。

Mar, 2022

构建公平训练数据集的自适应采样策略

本文提出一个数学模型以创造具有代表性的数据来解决机器学习模型在非代表性数据集上产生的问题。我们将数据集创建问题形式化为一个约束优化问题，并提出了一种灵活的方法，它包含模型构建者和其他利益相关者的偏好，以及学习任务的统计特性。此外，我们证明，在一定条件下，即使没有关于学习率的先前知识，该优化问题也可以高效地求解。通过在合成基因组数据上进行的模拟研究，我们发现我们提出的自适应采样策略优于多种常用的数据收集启发式算法，包括等量和比例采样，并证明了通过策略数据集设计构建公平模型的价值。

Jan, 2022

学习平滑和公平的表示

为了防止受保护人口受到歧视，减轻数据拥有者法律责任，本文尝试通过映射特征到公平表征空间，预防性地消除特征与敏感属性之间的相关性。实验结果表明，平滑表征分布可提供公平证书的泛化保证，同时不降低下游任务的准确性。

Jun, 2020

如何做到公正和多样化？

研究机器学习中的算法偏差问题，提出一种同时确保公平和多样性的数据子抽样算法，并在图像总结任务中取得了显着的公平性改善和不太牺牲特征多样性的结果。

Oct, 2016

表征很重要：评估训练数据中子组分配的重要性

通过将数据收集视为学习过程的一部分，我们表明不仅多样化的训练数据可以提高子群体的性能，还可以实现人口水平的目标。我们的分析和实验描述了数据集组成如何影响性能，并提供了建设性的结果，以利用现有数据的趋势和领域知识，帮助指导有意识、具有目标意识的数据集设计。

Mar, 2021

关于公平感知机器学习数据集的调查

本文概述了应用于公平感知机器学习中的真实世界数据集，并使用贝叶斯网络分析数据特征之间的关系，进一步进行了探索性分析。

Oct, 2021

关于在数据偏差下测试和比较公平分类器

本文针对注入数据偏差的理论模型，从理论和经验上研究了它对公平分类器准确性和公正性的影响，并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验，我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性，并发现少量简单公平技术，如重新加权、指数梯度，在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。

Feb, 2023

统计学、政治学和机器学习中的代表性问题

本研究概述了所谓代表性概念的历史、定义和争议，探讨了其在统计学、政治和现代机器学习中的重要性、应用和价值观冲突。

Jan, 2021

iFair: 学习个体公平数据表示方法用于算法决策

本文提出了一种基于概率映射用户记录的方法，用于实现算法决策应用的个体公平性和真实应用环境下的分类器和排名等工具的效用性，并通过应用于现实世界数据集的分类和学习排序任务的实验表明了其比之前最佳方法有显著改善。

Jun, 2018

辅助性数据集中的数据代表性：一项元分析

本文研究 AI 公平性和包容性中的困境，并探讨了使用 accessibility datasets 对有潜力缓解 AI 偏见的不同人群的代表性。我们发现，accessibility datasets 代表不同年龄段的人，但存在性别和种族代表性差距。同时，我们还研究了人口统计变量的敏感性和复杂性如何使分类变得困难和不一致，希望我们的工作能够扩大边缘社区在 AI-infused 系统中的代表性。

Jul, 2022