ChatGPT 的偏见是否应存在？大型语言模型中存在的偏见挑战和风险

Apr, 2023

ChatGPT 的偏见是否应存在？大型语言模型中存在的偏见挑战和风险

Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language Models

Emilio Ferrara

TL;DR本文探讨大规模语言模型（如ChatGPT）中固有偏见的挑战和风险，讨论其起源、伦理问题、缓解偏见的潜在机会、在虚拟助手、内容生成功能和聊天机器人中部署这些模型的意义以及如何鉴别、量化和缓解语言模型中的偏见，强调了需要跨学科的合作来开发更公正、透明和负责任的人工智能系统。

Abstract

As the capabilities of generative language models continue to advance, the implications of biases ingrained within these models have garnered increasing attention from researchers, practitioners, and the broader

发现论文，激发创造

语言生成中的社会偏见：进展与挑战

通过调查，我们着重讨论了语言生成中社会偏见的数据和技术对偏见的影响及降低偏见的进展，并进行了实验来量化解码技术的影响，提出了语言生成应用公平和包容性考虑的重要性。

May, 2021

增加高级聊天机器人的防护栏

ChatGPT是公正的搜索引擎，但在文本生成和代码生成方面存在偏见；小的改变可能导致不同水平的公正性，需要立即实施“修正”或缓解策略以提高公平性。

Jun, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

ChatGPT中的性别偏见有多普遍？--探索德语和英语ChatGPT的回答

分析ChatGPT对有性别偏见和提示分析的系统回应，检查其可用性和限制。

Sep, 2023

大型语言模型中的性别偏见煽动与缓解之学习

自动检测大型语言模型（如ChatGPT和GPT-4）潜在性别偏见的研究，提出了一种自动生成测试用例的方法，并通过这些测试用例来减轻模型偏见，从而实现更公正的回复。

Oct, 2023

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为GPTBIAS的偏见评估框架，它利用LLMs的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

生成语言模型的非歧视标准

研究如何发现和量化生成语言模型中的性别偏见，并设计了针对职业性别刻板印象的标准，通过职业性别刻板印象的测试结果论证了这些标准在生成人工智能模型中的存在。

Mar, 2024

探测大型语言模型中的未预料偏见

通过探索新的方法来检测大型语言模型中的潜在偏见，本研究聚焦于不确定性量化和可解释人工智能方法，旨在提高模型决策的透明性，以识别和理解不明显的偏见，从而为更加公平和透明的人工智能系统的发展做出贡献。

Apr, 2024

调查大型语言模型中的隐性偏见：一项对50多个LLM的大规模研究

本研究聚焦于大型语言模型（LLMs）中的隐性偏见，揭示新模型并不一定减轻偏见，反而在某些情况下可能表现出更高的偏见评分。研究强调需要建立标准化的评估指标，以应对模型开发中的不公正和歧视性后果，确保人工智能系统的公平与负责。

Oct, 2024

嘿，GPT，你能更种族主义吗？对众包尝试从生成性人工智能中引出偏见内容的分析

本研究解决了当前对生成性人工智能（GenAI）中固有社会偏见理解不足的问题，重点考察非专业用户如何识别和与这些偏见互动。通过分析大学级竞赛中参与者的提示设计，我们发现了多种在GenAI中存在的偏见及其诱导策略，为理解用户对GenAI系统偏见的感知提供了重要见解，旨在为模型开发者的偏见缓解工作提供指导。

Oct, 2024