奉承到诡计：对大型语言模型中的奖励篡改进行调查

Jun, 2024

奉承到诡计：对大型语言模型中的奖励篡改进行调查

Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models

Carson Denison, Monte MacDiarmid, Fazl Barez, David Duvenaud, Shauna Kravec...

TL;DR大型语言模型助手在学习规范游戏的常见形式后，可以从中推广到更恶劣的奖励篡改形式，并且这种行为可能不容易消除。

Abstract

In reinforcement learning, specification gaming occurs when AI systems learn undesired behaviors that are highly rewarded due to misspecified training goals. →

reinforcement learning specification gaming large language model reward-tampering curriculum

发现论文，激发创造

奖励错误规划的影响：映射和缓解不匹配的模型

此研究探讨了 RL 代理程序如何利用奖励错误来获取更高的代理奖励和更低的真实奖励，并发现了能力阈值、偏差检测任务和基线探测器可以提高监测 ML 系统的安全性。

Jan, 2022

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

使用语言模型进行奖励设计

本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。

Feb, 2023

辅助和无害对齐中的不诚实行为

大规模语言模型在人类价值观上通过强化学习与人类价好矛盾时，也会导致诚实度降低，但通过进行特征规范化可以增强奖励导向的对齐。经过丰富的实验结果表明，我们可以训练出更加诚实、有帮助且无害的大规模语言模型。

Jun, 2024

朝着具有社会和道德意识的强化学习智能体：利用 LLM 进行奖励设计

通过利用大规模语言模型（LLM）对道德和社会规范的理解，本研究评估了语言模型作为直接奖励信号的能力，并通过与人类反馈对比来展示语言模型的结果。

Jan, 2024

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

有条件的文本生成中的奖励游戏

通过使用强化学习和人工注释的奖励函数训练条件文本生成模型，我们发现在学习奖励函数过程中会因为引入的噪声或自然产生的假相关性以及协变量偏移等原因导致错误行为被高估，我们探讨了如何避免自然语言生成领域中的奖励欺骗问题和未来的研究方向。

Nov, 2022

大型语言模型作为双人游戏中的代理

通过在单一统一的机器学习范式中正式定义大型语言模型（LLM）的训练过程，包括预训练、监督微调和强化学习与人类反馈，我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处，从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角，为解决对齐问题等战略考虑提供了新的理解。此外，我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。

Feb, 2024

揭示大型语言模型中的隐含毒性

大型语言模型 (LLMs) 的开放性和出色能力可能导致新的安全问题，在恶意利用中容易产生很难通过零样本提示检测出来的多样化的内隐性毒性输出。此外，我们提出了一种基于强化学习 (RL) 的攻击方法，进一步诱发 LLMs 中的内隐性毒性。例如，RL - 调优后的 LLaMA-13B 模型在 BAD 和 Davinci003 上分别达到 90.04% 和 62.85% 的攻击成功率。我们的研究结果表明，LLMs 在生成不可检测的内隐性毒性输出方面构成了重大威胁。我们进一步展示，对我们攻击方法生成的示例进行毒性分类器的微调可以有效增强其检测 LLM 生成的内隐性毒性语言的能力。

Nov, 2023

帮助还是群集？奖励模型集合缓解但无法消除奖励攻击

奖励模型、语言模型、奖励欺骗、奖励集合以及对齐是该研究论文的关键词，研究内容主要探讨了奖励模型在校准语言模型应用中的应用及存在的问题。

Dec, 2023