生成人工智能的公平性的正式规范、评估和强制执行

Apr, 2024

生成人工智能的公平性的正式规范、评估和强制执行

Formal Specification, Assessment, and Enforcement of Fairness for Generative AIs

Chih-Hong Cheng, Changshun Wu, Harald Ruess, Xingyu Zhao, Saddek Bensalem

TL;DR生成式人工智能越来越多地生成类似于人类输出的内容，从文本到图像等，增加了强化或加剧社会偏见和不平等的风险。我们在此正式刻画生成式人工智能的公平性概念，作为监测和强制公平性的基础。我们利用无限词的概念定义了两个层面的公平性。第一个层面是对生成序列展示的公平性，仅在输出上进行评估，而对提示 / 模型不关心。第二个层面是生成式人工智能模型的固有公平性，要求在输入提示中是中立的情况下也能表现出公平性，即不明确指示生成式人工智能产生特定类型的输出。我们还研究了相对交叉公平性以应对考虑多个类别时公平性的组合爆炸和懒惰公平性强制。我们实施的规范监测和强制工具在测试多个生成式人工智能模型时显示出有趣的结果。

Abstract

The risk of reinforcing or exacerbating societal biases and inequalities is growing as generative ai increasingly produces content that resembles human output, from text to images and beyond. Here we formally characterize the notion of →

generative ai fairness infinite words intersectional fairness specification monitoring

发现论文，激发创造

生成模型中的公平性测量

本文回顾了以往提出的公正度量标准，并讨论了绩效基准框架以及替代度量标准的评估。

Jul, 2021

生成模型内容审查的安全性与公正性

本研究提出了一个理论框架来对文本到图像生成技术进行负责任的内容管理，其中包括了定义并区分了安全、公平和度量公平的概念，并且详细列举了可能出现的伤害案例，并提供了如何量化所定义的危害的实证演示，用数据驱动的内容管理决策来实现量化危害的操作。

Jun, 2023

生成式人工智能伦理的映射：一项全面的范围审查

通过分析 378 个伦理问题的 19 个主题领域，本研究综述了生成人工智能伦理问题的分类和排名，主要关注大型语言模型和图像生成模型，为学者、从业人员和政策制定者提供了关于公平性、安全性、有害内容、幻觉、隐私、交互风险、安全性、社会影响等伦理争论的全面概述，并讨论了结果、评估了文献中的不平衡现象，并探讨了未经证实的风险场景。

Feb, 2024

AI 实践中的公平性

AI Fairness 领域存在多种理解和多样化的公平概念，对此，本文提出了一种基于上下文和以社会为中心的方法来帮助项目团队更好地识别、减轻和处理人工智能项目流程中出现的不公平偏见和歧视，并讨论了如何通过自我评估、风险管理和公平准则的文档化来实现 AI 公平原则。

Feb, 2024

在交互式人机协同 AI 公平性中促进最终用户的参与

我们探索了一种人机交互界面的设计，使得普通用户可以识别潜在的公平问题并在贷款决策的背景下解决它们，为评判和解决人工智能的公平性做出贡献。

Apr, 2022

人工智能模型中的公平追求：一项调查

人工智能（AI）模型在我们的生活的各个方面得到广泛应用，如医疗、教育和就业。鉴于它们在许多敏感环境中使用并做出可能改变生活的决策，潜在的偏见结果成为一个紧迫问题。开发人员应确保这些模型不表现出任何意外的歧视做法，如对特定性别、种族或残疾人的偏袒。随着 AI 系统的广泛应用，研究人员和从业者对不公平的模型意识越来越强，并致力于减少其中的偏见。本文综述了研究人员在确保 AI 系统公平性方面所做的不同努力。我们探讨了当前文献中关于公平性的不同定义，通过对不同类型的偏见进行分类，研究了不同应用领域中存在的出现偏见的 AI 案例。我们对研究人员在减少 AI 模型偏见方面采用的方法和技术进行了详细研究。此外，我们还深入探讨了偏见模型对用户体验的影响以及在开发和部署此类模型时需要考虑的伦理问题。我们希望通过分享这份全面的综述，帮助研究人员和从业者理解 AI 系统中公平性和偏见的复杂问题。通过此综述，我们旨在促进公平和负责任 AI 领域的进一步讨论。

Mar, 2024

AI 公正：从原则到实践

本文总结和评估了追求人工智能系统公正性的各种方法和技术，提出了定义、衡量和预防人工智能偏见的实用指南，并针对评估人工智能系统偏见的一些简单但常见方法提出了更为复杂和有效的替代方案。此外它还提供了一个共同的语言来解决领域内普遍存在的争议和混乱。它描述了涉及人工智能公正性的各种权衡，并提供了实用建议来平衡这些权衡。本文提供了关于人工智能从业者、组织领导、政策制定者的讨论和指南，以及为技术观众提供更多相关资料的链接。通过举例清晰阐述了本文中所提到的概念、挑战和建议。

Jul, 2022

探索可解释人工智能 (XAI) 在 AI 生命周期中对公平性的潜力

人工智能系统的广泛应用越来越突显算法公正性问题，特别是在高风险情景下。因此，对如何改善人工智能系统的公正性以及可采取的措施进行关键考虑已迫在眉睫。许多研究人员和政策制定者认为可解释的人工智能是提高人工智能系统公正性的一种有希望的方法。然而，可解释的人工智能方法和公正性概念各不相同，它们表达不同的期望，而且可解释的人工智能与公正性之间的确切联系仍然模糊不清。此外，在人工智能系统的整个生命周期中，可能适用不同的措施来增加算法的公正性。然而，目前还没有一种连贯的方法将公正性期望与人工智能生命周期相对应。本文旨在填补这两个空白：我们概括得出了八个公正性期望，将它们与人工智能生命周期相联系，并讨论可解释的人工智能如何帮助解决每个期望。我们希望为实际应用提供方向，并激励特别关注这些公正性期望的可解释的人工智能研究。

Apr, 2024

自动生成测试内容中的公平性问题识别

旨在探讨自然语言生成中的公平问题，特别关注自动生成的测试内容对测试结果的影响，构建数据集并使用多种分类方法进行实验，发现自我纠正和少样本学习相结合的方法在公平性上有最佳表现。

Apr, 2024

机器学习中的公平性

讨论如何使用因果贝叶斯网络和最优输运理论来处理机器学习公平性问题，尤其是在复杂的不公平场景下，提出了一种统一的框架来处理不同的情况和公平标准，并介绍了一种学习公平表示的方法和一种考虑敏感属性使用限制的技术。

Dec, 2020