法律约束力但不公平吗?评估隐私政策的公平性
本文介绍了 PrivacyQA 数据集,以及采用神经网络进行隐私政策问题回答的方法和挑战。PrivacyQA 数据集包括 1750 个问题和 3500 个相关答案的专业注释,研究表明,当前的神经网络方法在回答隐私政策问题上存在诸多问题,该数据集为未来的问题回答系统提供了巨大的改进空间。
Nov, 2019
隐私和公正是负责任的人工智能和可信机器学习的两个关键支柱。本文对隐私和公正在机器学习中的影响进行了综述,包括有监督学习、无监督学习、半监督学习和强化学习,并提出了同时实现这两个目标时所面临的研究挑战,特别关注大规模语言模型。
Jul, 2023
我们提出了一个基于 Polisis 的自动化框架,能够在隐私政策的众多细节方面进行可扩展的、动态的、多维查询。最初的 Polisis 具有一个隐私中心语言模型和神经网络分类器的新等级结构,支持由结构化和自由形式查询支持的两个应用程序:自动分配隐私图标和 PriBot 隐私答案查询。
Feb, 2018
本文旨在调查研究自动化决策系统中机器学习算法存在的偏差及其与公平、隐私和分类准确性之间的关系,并综述了处理公平 - 准确性权衡的不同方法。作者通过实验分析了公平度量和准确度在现实世界场景中的关系。
Sep, 2022
研究算法公平性和隐私在机器学习中的应用,分析了公平性对训练数据信息泄露的影响,发现公平性会牺牲一部分隐私权,特别是对弱势群体。同时,训练数据的偏差越大,为了弱势群体的公平性所付出的隐私成本也越高。
Nov, 2020
数据实践塑造了公平机器学习研究和实践。关键数据研究通过指出不足并提出改进建议,为该领域的负责前进提供了重要的反思和批评。本研究对公平机器学习数据集进行了全面分析,展示了不经思考的常见实践如何阻碍算法公平研究的覆盖率和可靠性。我们对表格数据集中编码的保护信息以及在 142 篇出版物的 280 个实验中的使用进行了系统研究,发现了三个主要问题:(1)数据和评估中某些保护属性的缺乏代表性;(2)数据预处理过程中普遍排除少数群体;以及(3)威胁公平性研究泛化的模糊数据处理。通过在显著数据集的利用上进行示范性分析,我们展示了不经思考的数据决策如何不成比例地影响少数群体、公平度量和模型比较结果。此外,我们还发现了公开可用数据的限制、隐私考虑以及普遍缺乏意识等补充因素,加剧了这些挑战。为了解决这些问题,我们提出了一套以透明和负责任包容为核心的数据使用建议。本研究强调了对公平机器学习中数据实践进行关键重新评估的必要性,并提供了改善数据的获取和使用的方向。
Apr, 2024
通过因果推断的主分层概念,引入了一个新的公平概念 —— 基本公平,以人类和算法决策为例。其核心思想是不应该歧视那些对决定影响相似的个体。与现有的统计公平定义不同,基本公平明确考虑了个体可能受到决策影响的事实。
May, 2020
本篇文章综述了隐私保护与公平之间的关系,分析了在不同情况下二者目标的一致性与对立性,探讨了隐私保护可能加剧决策问题和学习任务中的偏见和不公平现象,并描述了在隐私保护系统中解决公平问题的可行措施,为在公平视角下部署保护隐私的机器学习或决策任务提供了统一的理解。
Feb, 2022
本文旨在通过形式化一致的公平概念,将哲学讨论转化为 ADM 系统中 ML 模型培训和评估的一种正式框架,并提出了一般算法,以实现 fairML 的更高语言清晰度和实际应用。
May, 2022