数据集代表性与下游任务公平
本文研究数据的代表性对于通过机器学习模型进行数据推断至关重要,探讨了模型中的偏见和公正性,以及与输入数据固有偏见的关系。本文介绍了三个可测量概念,以帮助集中观点并评估不同的数据样本。通过对美国人口普查数据的实证演示,我们评估了这些概念之间的对比。最后,我们提出了一个问题框架,帮助设计人员在数据文档模板中考虑数据的代表性。
Mar, 2022
本文提出一个数学模型以创造具有代表性的数据来解决机器学习模型在非代表性数据集上产生的问题。我们将数据集创建问题形式化为一个约束优化问题,并提出了一种灵活的方法,它包含模型构建者和其他利益相关者的偏好,以及学习任务的统计特性。此外,我们证明,在一定条件下,即使没有关于学习率的先前知识,该优化问题也可以高效地求解。通过在合成基因组数据上进行的模拟研究,我们发现我们提出的自适应采样策略优于多种常用的数据收集启发式算法,包括等量和比例采样,并证明了通过策略数据集设计构建公平模型的价值。
Jan, 2022
为了防止受保护人口受到歧视,减轻数据拥有者法律责任,本文尝试通过映射特征到公平表征空间,预防性地消除特征与敏感属性之间的相关性。实验结果表明,平滑表征分布可提供公平证书的泛化保证,同时不降低下游任务的准确性。
Jun, 2020
通过将数据收集视为学习过程的一部分,我们表明不仅多样化的训练数据可以提高子群体的性能,还可以实现人口水平的目标。我们的分析和实验描述了数据集组成如何影响性能,并提供了建设性的结果,以利用现有数据的趋势和领域知识,帮助指导有意识、具有目标意识的数据集设计。
Mar, 2021
本文针对注入数据偏差的理论模型,从理论和经验上研究了它对公平分类器准确性和公正性的影响,并证明了在重新加权偏差注入分布上最小化选择精心挑选的重加权损失可以恢复原始数据分布上的贝叶斯最优组感知公平分类器。通过广泛的实验,我们检查了标准公平工具包中的预处理公平分类器在训练数据注入不同程度的偏差时的公平性和准确性,并发现少量简单公平技术,如重新加权、指数梯度,在其训练数据注入欠代表性和标签偏差时也可以提供稳定的准确度和公平性保证。
Feb, 2023
本文提出了一种基于概率映射用户记录的方法,用于实现算法决策应用的个体公平性和真实应用环境下的分类器和排名等工具的效用性,并通过应用于现实世界数据集的分类和学习排序任务的实验表明了其比之前最佳方法有显著改善。
Jun, 2018
本文研究 AI 公平性和包容性中的困境,并探讨了使用 accessibility datasets 对有潜力缓解 AI 偏见的不同人群的代表性。我们发现,accessibility datasets 代表不同年龄段的人,但存在性别和种族代表性差距。同时,我们还研究了人口统计变量的敏感性和复杂性如何使分类变得困难和不一致,希望我们的工作能够扩大边缘社区在 AI-infused 系统中的代表性。
Jul, 2022