公平性与缺失值
该论文研究了缺失数据对算法公平性的影响,并提出了一种可扩展和自适应的公平分类算法来处理所有可能的缺失模式,以保留缺失模式中编码的信息,并在多个数据集上实验证明该算法相比于传统的 impute-then-classify 方法在公平性和准确性上具有优势。
May, 2023
讨论如何使用因果贝叶斯网络和最优输运理论来处理机器学习公平性问题,尤其是在复杂的不公平场景下,提出了一种统一的框架来处理不同的情况和公平标准,并介绍了一种学习公平表示的方法和一种考虑敏感属性使用限制的技术。
Dec, 2020
数据实践塑造了公平机器学习研究和实践。关键数据研究通过指出不足并提出改进建议,为该领域的负责前进提供了重要的反思和批评。本研究对公平机器学习数据集进行了全面分析,展示了不经思考的常见实践如何阻碍算法公平研究的覆盖率和可靠性。我们对表格数据集中编码的保护信息以及在 142 篇出版物的 280 个实验中的使用进行了系统研究,发现了三个主要问题:(1)数据和评估中某些保护属性的缺乏代表性;(2)数据预处理过程中普遍排除少数群体;以及(3)威胁公平性研究泛化的模糊数据处理。通过在显著数据集的利用上进行示范性分析,我们展示了不经思考的数据决策如何不成比例地影响少数群体、公平度量和模型比较结果。此外,我们还发现了公开可用数据的限制、隐私考虑以及普遍缺乏意识等补充因素,加剧了这些挑战。为了解决这些问题,我们提出了一套以透明和负责任包容为核心的数据使用建议。本研究强调了对公平机器学习中数据实践进行关键重新评估的必要性,并提供了改善数据的获取和使用的方向。
Apr, 2024
机器学习算法应用广泛,但也可能存在偏见和不公平。本研究提出了一种刻画数据偏见的分类法,并探究了算法的不公平和精度之间的权衡。实证研究表明,在不同的数据偏见设置下,算法的公平性和精度会受到不同的影响,而简单的预处理干预技术可以提高算法的公平性。
Jul, 2022
这篇文章介绍了机器学习中的社会偏见和公平性问题,总结了预处理、处理和后处理等多种方法,包含二分类、回归、推荐系统、无监督学习和自然语言处理等多个方面,同时提供了多个开源库。最后,列举了公平性研究的四个难题。
Oct, 2020
本文旨在调查研究自动化决策系统中机器学习算法存在的偏差及其与公平、隐私和分类准确性之间的关系,并综述了处理公平 - 准确性权衡的不同方法。作者通过实验分析了公平度量和准确度在现实世界场景中的关系。
Sep, 2022