构建公平训练数据集的自适应采样策略

Jan, 2022

构建公平训练数据集的自适应采样策略

Adaptive Sampling Strategies to Construct Equitable Training Datasets

William Cai, Ro Encarnacion, Bobbie Chern, Sam Corbett-Davies, Miranda Bogen...

TL;DR本文提出一个数学模型以创造具有代表性的数据来解决机器学习模型在非代表性数据集上产生的问题。我们将数据集创建问题形式化为一个约束优化问题，并提出了一种灵活的方法，它包含模型构建者和其他利益相关者的偏好，以及学习任务的统计特性。此外，我们证明，在一定条件下，即使没有关于学习率的先前知识，该优化问题也可以高效地求解。通过在合成基因组数据上进行的模拟研究，我们发现我们提出的自适应采样策略优于多种常用的数据收集启发式算法，包括等量和比例采样，并证明了通过策略数据集设计构建公平模型的价值。

Abstract

In domains ranging from computer vision to natural language processing, machine learning models have been shown to exhibit stark disparities, often performing worse for members of traditionally underserved groups. One factor contributing to these performance gaps is a lack of represent

machine learning data representation equitable training datasets optimization problem adaptive sampling

发现论文，激发创造

数据集代表性与下游任务公平

数据集的代表性与分类器公平性之间存在复杂的关系；平衡这两个量需要模型和数据集设计者特别注意。

Jun, 2024

表征很重要：评估训练数据中子组分配的重要性

通过将数据收集视为学习过程的一部分，我们表明不仅多样化的训练数据可以提高子群体的性能，还可以实现人口水平的目标。我们的分析和实验描述了数据集组成如何影响性能，并提供了建设性的结果，以利用现有数据的趋势和领域知识，帮助指导有意识、具有目标意识的数据集设计。

Mar, 2021

如何做到公正和多样化？

研究机器学习中的算法偏差问题，提出一种同时确保公平和多样性的数据子抽样算法，并在图像总结任务中取得了显着的公平性改善和不太牺牲特征多样性的结果。

Oct, 2016

关于对抗偏差和公正机器学习的鲁棒性

为保证公正性，公平机器学习算法致力于消除不同群体间的行为差异，但是研究表明，在训练数据存在偏差的情况下，将同等的重视不同规模和分布的不同群体，可能会与鲁棒性相冲突，攻击者可以通过对样本和标签的控制来攻击群体公平性机器学习，从而在测试数据上显著降低测试准确率，本文评估了多种算法和基准数据集的攻击，分析了公平机器学习的鲁棒性。

Jun, 2020

数据集公正性：样本是否平等？在数据集内寻求公正的探索

本文介绍了一种解决机器学习中数据不平衡问题的新方法，该方法利用深度感知嵌入和聚类基于图像外观计算样本似然，并使用提出的广义焦点损失函数在训练过程中对样本进行不同的加权。实验证实了该方法在自动驾驶视觉数据集（包括 KITTI 和 nuScenes）上的有效性，改进了 3D 物体检测方法，在 KITTI 数据集中涉及人为稀少的类别（骑车者）上实现了超过 200% 的 AP 增益。结果表明该方法具有通用性，可以补充现有技术，并对较小的数据集和罕见类别特别有益。

Aug, 2023

智能抽样用于代理建模、超参数优化和数据分析

在采样技术的研究领域，我们提出智能采样的概念，既可以创建新算法，也可以修改其他领域的适当算法以满足采样需求，经过定量和定性比较发现，简单的算法可以轻松地满足超参数优化、数据分析等方面的采样需求，并且优于当前使用的更复杂的算法，从而更好地利用时间和计算资源。

Jun, 2023

基于重复损失最小化的公平性无需人口统计信息

通过采用分布式鲁棒优化的方法，我们可以在不考虑特定群体身份的情况下控制少数群体的风险水平，从而避免了现有的经验风险最小化方法在时间推移中导致的表征偏差加剧。在一个真实的文本自动完成任务中，这种方法提高了少数群体用户的满意度。

Jun, 2018

模型训练中优化平等机会公平性

本研究提出了两种新的训练目标，直接优化了广泛使用的平等机会标准，并证明它们在两个分类任务中减少偏见的同时保持高性能。

May, 2022

机器学习和人工智能系统的数据可代表性

本文研究数据的代表性对于通过机器学习模型进行数据推断至关重要，探讨了模型中的偏见和公正性，以及与输入数据固有偏见的关系。本文介绍了三个可测量概念，以帮助集中观点并评估不同的数据样本。通过对美国人口普查数据的实证演示，我们评估了这些概念之间的对比。最后，我们提出了一个问题框架，帮助设计人员在数据文档模板中考虑数据的代表性。

Mar, 2022

公正和多样化的基于 DPP 的数据概述

通过加入公平性约束条件，该文章提出了一种基于确定性多元分布的方法，并且使用了快速的抽样算法以产出多样化且公平的数据子集。

Feb, 2018