学习公正性,走向公平、隐私和效用的帕累托前沿
机器学习模型在决策和政策操作中被部署为核心组件,对个人生活产生直接影响。为了在道德上行事并遵守政府监管,这些模型需要做出公平的决策并保护用户的隐私。然而,这些要求可能会导致模型性能下降,与其潜在的偏向和隐私泄露对应模型相比。因此,公平性、隐私性和机器学习模型性能之间的权衡成为一个问题,从而需要一种方法来量化这种权衡以便进行部署决策。在这项工作中,我们将这种权衡解释为一个多目标优化问题,并提出了 PFairDP,这是一个使用贝叶斯优化的流水线,用于发现在公平性、隐私性和机器学习模型效用之间的帕累托最优点。我们展示了如何使用 PFairDP 复制通过手动约束设置过程实现的已知结果。我们进一步通过对多个模型和数据集进行实验,证明了 PFairDP 的有效性。
Nov, 2023
隐私和公正是负责任的人工智能和可信机器学习的两个关键支柱。本文对隐私和公正在机器学习中的影响进行了综述,包括有监督学习、无监督学习、半监督学习和强化学习,并提出了同时实现这两个目标时所面临的研究挑战,特别关注大规模语言模型。
Jul, 2023
本文介绍了一种新的处理公平性的方法,通过建立一个随机多目标优化问题,得到一组准确且平衡的 Pareto 前沿,以此权衡准确度和公平性,以更高效地处理大量的流数据。
Aug, 2020
通过广泛的评估结果,我们证明不同隐私度对公平性的影响并非单调。相反,我们观察到准确性差异在机器学习过程中添加更多的差分隐私噪声(增强隐私)时初步增加,但在更高隐私水平下通过更多噪声后逐渐减小。此外,通过在差分隐私随机梯度下降机器学习方法中实施梯度剪裁,可以减轻隐私噪声对公平性的负面影响。这种缓和是通过较低的剪裁阈值来调节差异性增长实现的。
Apr, 2024
选取适用于差分隐私的最佳模型架构是实现在一定隐私预算下使用差分隐私随机梯度下降 (DP-SGD) 获得最佳效用的关键。本文通过使用标准数据集和严格的实验协议,表明选择适用于 DP-SGD 的最佳模型体系结构时,与最大化效用的非隐私基线相比,相关的公平性指标差异跨组会更少或可以忽略不计,这些发现挑战了关于在基于偏见数据集训练的深度学习模型中差分隐私必然加剧不公平性的理解。
Feb, 2023
研究算法公平性和隐私在机器学习中的应用,分析了公平性对训练数据信息泄露的影响,发现公平性会牺牲一部分隐私权,特别是对弱势群体。同时,训练数据的偏差越大,为了弱势群体的公平性所付出的隐私成本也越高。
Nov, 2020
本文考虑了机器学习中可推广的偏见缓解技术的需求,由于对公平性和歧视的担忧,这些技术在数据驱动的决策过程中得到了各个行业的应用。尽管许多现有的机器学习偏见缓解方法在特定情况下取得了成功,但它们常常缺乏可推广性,不能轻松地应用于不同的数据类型或模型。此外,准确性与公平性之间的权衡仍然是该领域的一种根本张力。为了解决这些问题,我们提出了一种基于多任务学习的偏见缓解方法,利用了多目标优化中的 Monte-Carlo dropout 和 Pareto 优势的概念。该方法在不使用敏感信息的情况下同时优化准确性和公平性,提高了模型的可解释性。我们在来自不同领域的三个数据集上测试了这种方法,并展示了它如何提供模型公平性和性能之间的最理想权衡。这使得我们能够在特定领域进行调优,其中一个指标可能比另一个更重要。通过我们在本文中介绍的框架,我们旨在增强公平性和性能之间的权衡,并为机器学习中偏见缓解方法的可推广性问题提供一个解决方案。
Apr, 2024
本文提出使用 Pareto 前沿和 Chebyshev 标量化方案来解决算法公正中准确性和公正性的平衡问题,并证明 Chebyshev 标量化方案在恢复 Pareto 最优解方面比线性标量化方案具有更好的理论性能和计算成本效益。
Aug, 2020
本文讨论了多任务学习中组公平性对于准确性的影响,提出了一种新的测量多维 Pareto 前沿的公平性 - 准确性权衡的方法,并提出了一种多任务感知公平性(MTA-F)方法来改善多任务学习中的公平性。实验结果表明,该方法的有效性。
Jun, 2021
提出了一个框架以减少训练数据集中不公平的代表性,其中使用两个相互操作的对手功能来提高公平性。首先,通过训练模型防止猜测受保护属性的值,同时限制效用损失,实现模型公平性优化。然后,利用对抗机器学习的规避攻击生成新的被错误分类的例子,并用于第一步模型的重新训练和改进增强模型的公平性。将这两个步骤迭代应用,直到显著提高公平性。
May, 2020