ChatGPT 的公正性

May, 2023

Fairness of ChatGPT

Yunqi Li, Yongfeng Zhang

TL;DR本文旨在系统评估 ChatGPT 在高风险领域中的表现，并考虑使用有偏或无偏提示时 ChatGPT 输出中的差异，以实现 LLM 的公平性能的深入理解，促进偏见缓解和负责任人工智能系统的发展。

Abstract

Understanding and addressing unfairness in llms are crucial for responsible AI deployment. However, there is a limited availability of quantitative analyses and in-depth studies regarding fairness evaluations in

unfairness llms fairness evaluation chatgpt bias mitigation

发现论文，激发创造

公平 LLM 的不可能性

在 ChatGPT、Gemini 和其他大型语言模型（LLMs）的普适型系统时代，迫切需要公平的人工智能。然而，人工智能与人类交互的复杂性及其社会影响引发了公平标准如何应用的问题。我们回顾了机器学习研究人员用于评估公平性的技术框架，如群体公平性和公平表示，并发现它们在应用于 LLMs 时存在固有的局限性。为了应对这些挑战，我们提出了实现特定应用案例公平性的指南：上下文的重要性，LLMs 开发者的责任以及需求利益相关者在设计和评估过程中的参与。此外，利用 AI 系统的普适能力作为可扩展的 AI 辅助调整方法可能最终可能成为可能，并且甚至是必需的。

May, 2024

LLMs 对抑郁预测的数量和质量性别公平性研究

最近的研究表明，许多机器学习模型在抑郁症检测方面存在偏见，但是对于此任务中 LLMs 的偏见尚未被探索。本文首次尝试使用定量和定性方法研究现有 LLMs（ChatGPT，LLaMA 2 和 Bard）中存在的性别偏见程度。通过我们的定量评估，我们发现 ChatGPT 在各种性能指标上表现最佳，而 LLaMA 2 在群组公平度指标方面表现优于其他 LLMs。鉴于定性公平性评估仍然是一个未解决的研究问题，我们提出了几种策略（例如词频统计，主题分析），以调查定性评估是否可以为偏见分析提供超越定量评估的有价值的见解。我们发现，与 LLaMA 2 相比，ChatGPT 在预测解释方面始终提供更全面、更合理的解释。我们还确定了 LLMs 采用的几个主题，用于对性别公平性进行定性评估。我们希望我们的研究结果能成为未来改进 LLMs 公平性定性评估的起点，尤其是对于抑郁症检测等重要任务。

Jun, 2024

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

少样本公平性：揭示 LLM 对公平感知分类的潜力

利用大型语言模型（LLM）在各种下游应用中进行分类等工作至关重要，通过公平性可以确保包容性，基于种族、性别等因素实现平等代表和促进负责任的人工智能部署。本研究引入了一个框架来概述与各种公平性定义相一致的公平性规定，每个定义均由不同程度的抽象调控。我们通过在流程中将公平规则纳入，并使用 RAG 选择上下文演示来探索上下文学习的配置和过程。通过与不同 LLM 的实验比较，发现 GPT-4 在准确性和公平性方面的结果都优于其他模型。本研究是利用 LLMs 通过上下文学习实现预测任务公平性的早期尝试之一。

Feb, 2024

ChatGPT 公平性与可解释 - 引导提示的作用

大规模语言模型在信用风险评估中的潜力研究表明，当遵循精心设计的提示并辅以领域特定知识时，这些语言模型可以与传统机器学习模型的性能相媲美。尤其值得注意的是，它们只使用了极少的数据 - 仅 20 个数据点，相比于机器学习模型的 800 个数据点少了 40 倍。大规模语言模型在降低误报率和增强公平性方面表现出色，这两个方面对于风险分析至关重要。虽然我们的结果没有超过传统机器学习模型，但它们突显了大规模语言模型在类似任务中的潜力，并为未来在多样化的机器学习任务中利用大规模语言模型的能力奠定了基础。

Jul, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

在大型语言模型推荐中评估 ChatGPT 的公平性

本研究旨在评估通过大语言模型实现的推荐系统中潜在的社会偏见问题，针对传统推荐系统的不足，提出了一个新的名为 FaiRLLM 评估标准和一套评估指标来评估这一问题。通过该标准，对 ChatGPT 进行评估，发现其在生成推荐时仍然存在对某些敏感属性的不公平性展现。

May, 2023

利用大型语言模型揭示和缓解心理健康分析中的偏见

大型语言模型的进展展示了在各个应用领域的强大能力，包括心理健康分析。然而，现有的研究着重于预测性能，对公平性这一关键问题的探讨不足，给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集，使用十种不同的提示方法，系统地评估了七个社会因素的偏见。结果表明，GPT-4 在性能和公平性方面实现了最佳的平衡，尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外，我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见，凸显了在该领域进行公平分析的巨大潜力。

Jun, 2024

评估 LLMs 在著名人士中的性别差异

该研究评估了大型语言模型对获取事实信息的使用，特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向，并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异，尽管 GPT-4 的进展改善了性能，但并未完全消除这些性别差异，特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。

Mar, 2024

探测大型语言模型中的未预料偏见

通过探索新的方法来检测大型语言模型中的潜在偏见，本研究聚焦于不确定性量化和可解释人工智能方法，旨在提高模型决策的透明性，以识别和理解不明显的偏见，从而为更加公平和透明的人工智能系统的发展做出贡献。

Apr, 2024