关于公平感知机器学习数据集的调查
讨论如何使用因果贝叶斯网络和最优输运理论来处理机器学习公平性问题,尤其是在复杂的不公平场景下,提出了一种统一的框架来处理不同的情况和公平标准,并介绍了一种学习公平表示的方法和一种考虑敏感属性使用限制的技术。
Dec, 2020
本文展示了在真实世界中基于 40 个高评分 Kaggle 模型的公平性评估及其 7 种缓解技术的实证研究。结果发现,部分优化技术会导致模型失公,尽管机器学习库中有公平控制机制,但这些机制未被记录。最佳的降低失公的方法往往存在权衡和代价.
May, 2020
这篇文章介绍了机器学习中的社会偏见和公平性问题,总结了预处理、处理和后处理等多种方法,包含二分类、回归、推荐系统、无监督学习和自然语言处理等多个方面,同时提供了多个开源库。最后,列举了公平性研究的四个难题。
Oct, 2020
调查表明,人工智能领域中存在各种偏见和不公,因此机器学习研究人员定义了公平性的分类,以解决现有 AI 系统中的偏见问题。此外,调查还考察了在 AI 的不同领域和子领域中,现有技术的问题及其应对措施,以期鼓励研究人员在其各自领域中研究此问题。
Aug, 2019
数据实践塑造了公平机器学习研究和实践。关键数据研究通过指出不足并提出改进建议,为该领域的负责前进提供了重要的反思和批评。本研究对公平机器学习数据集进行了全面分析,展示了不经思考的常见实践如何阻碍算法公平研究的覆盖率和可靠性。我们对表格数据集中编码的保护信息以及在 142 篇出版物的 280 个实验中的使用进行了系统研究,发现了三个主要问题:(1)数据和评估中某些保护属性的缺乏代表性;(2)数据预处理过程中普遍排除少数群体;以及(3)威胁公平性研究泛化的模糊数据处理。通过在显著数据集的利用上进行示范性分析,我们展示了不经思考的数据决策如何不成比例地影响少数群体、公平度量和模型比较结果。此外,我们还发现了公开可用数据的限制、隐私考虑以及普遍缺乏意识等补充因素,加剧了这些挑战。为了解决这些问题,我们提出了一套以透明和负责任包容为核心的数据使用建议。本研究强调了对公平机器学习中数据实践进行关键重新评估的必要性,并提供了改善数据的获取和使用的方向。
Apr, 2024
通过对模型的前后公平性进行评估,研究发现,在数据分布和训练数据规模发生变化时,数据和模型公平性指标之间存在线性关系。这表明,在训练之前对公平性进行测试可以尽早发现有偏见的数据收集过程,检测生产系统中的数据漂移,并减少全面训练周期的执行,从而减少开发时间和成本。
Jan, 2024
本文旨在通过形式化一致的公平概念,将哲学讨论转化为 ADM 系统中 ML 模型培训和评估的一种正式框架,并提出了一般算法,以实现 fairML 的更高语言清晰度和实际应用。
May, 2022
在当前人工智能时代,本研究讨论了负责任的机器学习数据集的重要性,并提出了一个评估数据集的负责任框架。通过公平性、隐私保护和合规性等方面的考虑,我们分析了超过 100 个数据集,发现没有一个数据集能免于公平性、隐私保护和合规性问题。我们对数据集的文档化提供了改进建议,并认为在全球范围内的数据保护法规定下,科学界的数据集创建方法需要修订。
Oct, 2023