谁的偏好？公平偏好的差异及其对利用人类反馈的人工智能公平性的影响

ACLJun, 2024

谁的偏好？公平偏好的差异及其对利用人类反馈的人工智能公平性的影响

Whose Preferences? Differences in Fairness Preferences and Their Impact on the Fairness of AI Utilizing Human Feedback

Emilia Agis Lerner, Florian E. Dorner, Elliott Ash, Naman Goel

TL;DR通过从人类反馈中学习，我们考虑在内容审查中公平性的设置，在比较两个评论时，人类反馈被用来确定如何处理涉及不同敏感属性组的评论。我们发现，与注释者的种族、年龄、政治立场、教育水平和 LGBTQ + 身份有关，公平偏好存在显著差异，并且文本中提到的人口统计学信息对用户感知个体公平性有着强烈影响。此外，我们发现在预测人类偏好的下游分类器中也存在差异。最后，我们观察到在给定相等权重的不同人口统计注释训练的集成模型中，针对不同人口统计交叉部分表现更好，相比于给每个注释相等权重的单个分类器。

Abstract

There is a growing body of work on learning from human feedback to align various aspects of machine learning systems with human values and preferences. We consider the setting of fairness in content moderation, i

learning from human feedback fairness in content moderation demographics individual fairness downstream classifiers

发现论文，激发创造

机器学习中的公平性：一项调查

这篇文章介绍了机器学习中的社会偏见和公平性问题，总结了预处理、处理和后处理等多种方法，包含二分类、回归、推荐系统、无监督学习和自然语言处理等多个方面，同时提供了多个开源库。最后，列举了公平性研究的四个难题。

Oct, 2020

机器学习中促进公平的干预措施比较研究

本篇研究通过开发公开基准来对不同的公平性增强算法进行比较，并发现许多公平性措施之间具有强烈的相关性，但这些措施也对数据集构成的波动敏感，这表明公平干预可能比以前认为的更脆弱。

Feb, 2018

公平性概念及相关紧张关系综述

本文旨在调查研究自动化决策系统中机器学习算法存在的偏差及其与公平、隐私和分类准确性之间的关系，并综述了处理公平 - 准确性权衡的不同方法。作者通过实验分析了公平度量和准确度在现实世界场景中的关系。

Sep, 2022

探索非专业用户反馈对提升 AI 公平性的影响

人工智能的公平性在高风险决策中越来越引起关注，让利益相关者，尤其是普通用户，参与公平的人工智能开发具有潜力但往往被忽视。最近的努力探索了让普通用户提供与公平性相关的反馈的方法，但对如何将用户的反馈整合到人工智能模型中以及这样做的影响尚不了解。为了填补这一差距，我们从 58 个普通用户收集了关于一个在 Home Credit 数据集上训练的 XGBoost 模型公平性的反馈，并进行了离线实验，以研究重新训练模型对准确性、个体和团体公平性的影响。我们的工作为在 XGBoost 中整合用户公平反馈提供了基准结果，并提供了一个数据集和代码框架，以推动参与利益相关者研究人工智能公平性的起步工作。我们的讨论突出了在人工智能公平性中使用用户反馈面临的挑战，并指出了交互式机器学习的未来应用领域的方向。

Dec, 2023

AI 公平性与效用的联合优化：以人为本的方法

本文提出了一种用于优化 AI 模型的框架和一些示例方法，根据人类政策制定者的偏好来平衡公平性、模型准确性等目标之间的平衡，以此来减少偏差和不公平。

Feb, 2020

自然语言处理中的人类辅助公正分类

本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法，以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对，并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。

Dec, 2022

基于人工智能的手机应用程序评论中公平性关注的研究

在本篇研究中，我们通过构建一个包含公平性和非公平性评论的统计样本数据集，开发和评估了一组机器学习和深度学习分类器，用于区分公平性评论和非公平性评论。我们的实验结果表明，我们最佳的分类器能以 94% 的准确率检测出公平性评论。然后，我们将最佳分类器应用于收集自 108 个 AI 应用的大约 950 万条评论，并识别出约 92,000 个公平性评论。公平性评论分布在 23 个应用类别中，其中 ' 通讯 ' 和' 社交 ' 应用类别的公平性评论所占比例最高。通过对这 92,000 个公平性评论应用 K-means 聚类技术和手动分析，我们识别出了六种不同类型的公平性问题。最后，对于这些公平性评论，我们手动分析了 2,248 个应用开发者的回复，找出了六个根本原因以及应用开发者为公平性问题提出的几种合理解释。

Jan, 2024

机器学习中的偏差与公正调查

调查表明，人工智能领域中存在各种偏见和不公，因此机器学习研究人员定义了公平性的分类，以解决现有 AI 系统中的偏见问题。此外，调查还考察了在 AI 的不同领域和子领域中，现有技术的问题及其应对措施，以期鼓励研究人员在其各自领域中研究此问题。

Aug, 2019

在交互式人机协同 AI 公平性中促进最终用户的参与

我们探索了一种人机交互界面的设计，使得普通用户可以识别潜在的公平问题并在贷款决策的背景下解决它们，为评判和解决人工智能的公平性做出贡献。

Apr, 2022

反思公平：对霸权机器学习公平方法批评的跨学科调查

本文评估并比较了来自哲学、女性主义研究、批判性种族和民族研究、法律研究、人类学和科学技术研究等非计算学科的现有批评，旨在提供 ML 公正技术干预的跨学科理解，以此产生社会上最边缘化群体的公正结果，最后讨论了基于这些批评的未来 ML 公正研究方向。

May, 2022