生成式语言模型中意外自我加强学习放大的语言偏见——一个视角

Jun, 2023

生成式语言模型中意外自我加强学习放大的语言偏见——一个视角

On the Amplification of Linguistic Bias through Unintentional Self-reinforcement Learning by Generative Language Models -- A Perspective

HTML

PDF

Minhyeok Lee

TL;DR探讨生成式语言模型在数字应用中的广泛使用可能会不经意地引发自我加强学习循环，从而放大现有的语言偏见，这可能会影响未来几代人的语言和认知发展，并强调有必要进行严格的研究，以确保这些强大技术的有效、安全和公平使用，同时保持人类语言的丰富性和多样性。

Abstract

generative language models (GLMs) have the potential to significantly shape our linguistic landscape due to their expansive use in various digital applications. However, this widespread adoption might inadvertently trigger a →

发现论文，激发创造

评估开放式语言生成中偏差的数据集和评估标准

该研究介绍了一个大规模数据集以及一个新的自动化度量方法，用于研究和评测深度学习技术所生成的自由文本中存在的社会偏见，并发现机器生成的大部分文本在五个领域中表现出比人类撰写的维基百科文本更大的社会偏见。

Jan, 2021

通过强化校准缓解语言模型中的政治偏见

本文提出了度量 GPT-2 生成中政治偏差的度量标准，并提出了一种强化学习框架来减轻生成文本中的政治偏差。在三个属性上的实证实验中，我们的方法减少了偏见，同时保持了可读性和语义连贯性。

Apr, 2021

语言生成中的社会偏见：进展与挑战

通过调查，我们着重讨论了语言生成中社会偏见的数据和技术对偏见的影响及降低偏见的进展，并进行了实验来量化解码技术的影响，提出了语言生成应用公平和包容性考虑的重要性。

May, 2021

超越模仿游戏：量化和推断语言模型的能力

通过引入Beyond the Imitation Game基准测试（BIG-bench），我们评估了多种大小的语言模型在204个跨不同领域的任务上的表现，发现规模越大，其表现和校准也越好，但与人类专家相比还是很差，同时也发现在歧义上下文中情境偏见随规模增加而增加，但通过提示可以改善。

Jun, 2022

ChatGPT 的偏见是否应存在？大型语言模型中存在的偏见挑战和风险

本文探讨大规模语言模型（如ChatGPT）中固有偏见的挑战和风险，讨论其起源、伦理问题、缓解偏见的潜在机会、在虚拟助手、内容生成功能和聊天机器人中部署这些模型的意义以及如何鉴别、量化和缓解语言模型中的偏见，强调了需要跨学科的合作来开发更公正、透明和负责任的人工智能系统。

Apr, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

生成式语言模型表现出社会身份偏见

调查发现现代语言模型存在基本的社会认同偏见，通过筛选训练数据可以减轻这些偏见。这些结果对于创建更少偏见的大型语言模型以及进一步研究用户与语言模型的互动以防止潜在的偏见加强具有实际意义。

Oct, 2023

自我反馈的危险：自我偏见在大型语言模型中增强

最近的研究表明，自我反馈可以改善大型语言模型在某些任务上的表现，但对其他任务而言则会恶化。我们发现这种矛盾是由于语言模型对自己的输出存在偏见所致。本文通过两个统计量正式定义了语言模型的自我偏见——偏爱其自身生成的内容。我们分析了六个语言模型在翻译、受限文本生成和数学推理任务上的表现。我们发现自我偏见在所有研究的语言模型中普遍存在，并且跨多种语言和任务。我们的分析揭示了自我优化流程虽然可以提高模型输出的流畅度和可理解性，但会进一步放大自我偏见。为了减轻这种偏见，我们发现更大的模型规模和准确评估的外部反馈可以显著减少自我优化流程中的偏见，从而在下游任务中实现实际性能的提升。

Feb, 2024

REFINE-LM: 通过强化学习减轻语言模型的刻板偏见

本文研究了大型语言模型所继承的意外偏见，尤其是性别、地域和种族刻板印象。提出了一种名为REFINE-LM的去偏见方法，通过强化学习处理不同类型的偏见，无需细化训练，实验表明该方法能够显著减少刻板偏见，同时保持模型性能且训练成本低。

Aug, 2024

偏见放大：语言模型作为日益偏见的媒介

本研究针对大型语言模型（LLM）在合成数据训练中导致的偏见放大问题进行了深入探讨。我们提出了一个理论框架，明确偏见放大的发生条件，并通过实验验证了GPT-2在合成数据上的偏见渐增现象，同时探讨了有效的缓解策略。研究发现，偏见和模型崩溃由不同神经元驱动，为模型公平性提供了新的理解途径。

Oct, 2024