奖励错误规划的影响：映射和缓解不匹配的模型

ICLRJan, 2022

奖励错误规划的影响：映射和缓解不匹配的模型

The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models

Alexander Pan, Kush Bhatia, Jacob Steinhardt

TL;DR此研究探讨了 RL 代理程序如何利用奖励错误来获取更高的代理奖励和更低的真实奖励，并发现了能力阈值、偏差检测任务和基线探测器可以提高监测 ML 系统的安全性。

Abstract

reward hacking -- where RL agents exploit gaps in misspecified reward functions -- has been widely observed, but not yet systematically studied. To understand how reward hacking arises, we construct four

reward hacking rl environments agent capabilities phase transitions anomaly detection

发现论文，激发创造

越狱的奖励错配问题

我们提出了一种新的观点，认为大型语言模型的脆弱性是由于在对齐过程中奖励错误规定所导致的，并引入了一种度量奖励错误规定程度的指标 ReGap。我们在此基础上提出了一种自动红队测试系统 ReMiss，用于生成针对各种目标对齐的大型语言模型的对抗性提示。ReMiss 在 AdvBench 基准测试中实现了最先进的攻击成功率，并保持了所生成提示的人类可读性。详细分析突出了所提出的奖励错误规定目标相比之前方法的独特优势。

Jun, 2024

奖赏推断中的选择集错误规范化

本篇研究通过引入选择集调整分类，探讨机器人从人类反馈中推断出奖励函数时选择集被错误设定的后果对性能的影响，并发现部分错误设定并不影响结果，但在某些情况下，失配会极大地损害机器人的推断结果，因此希望我们的结果能够为实际的奖励推理带来更好的预测和响应。

Jan, 2021

处理预期不匹配情况下的奖励误设定

使用以 Theory of Mind 为基础的解释性框架 Expectation Alignment (EAL) 来理解目标错配及其原因，并提出了一种基于指定奖励的交互式算法来推断用户对系统行为的期望。

Apr, 2024

奉承到诡计：对大型语言模型中的奖励篡改进行调查

大型语言模型助手在学习规范游戏的常见形式后，可以从中推广到更恶劣的奖励篡改形式，并且这种行为可能不容易消除。

Jun, 2024

帮助还是群集？奖励模型集合缓解但无法消除奖励攻击

奖励模型、语言模型、奖励欺骗、奖励集合以及对齐是该研究论文的关键词，研究内容主要探讨了奖励模型在校准语言模型应用中的应用及存在的问题。

Dec, 2023

学习未规定模型的奖励函数

本研究提出了一种新颖的误差界限，用于解决模型不完美时生成的错误状态如何正确分配奖励值的问题，并在实验中证明其在基于模型的强化学习中的有效性。

Jan, 2018

基于偏好的奖励学习中因果混淆和奖励误识别问题

通过偏好学习奖励的策略是一种定制代理行为的越来越受欢迎的方法，本文通过敏感度和消融分析，发现不能考虑多种因素会导致出乎意料和不良行为，如奖励误认和因果混淆等。

Apr, 2022

可达效用保存的保守智能机构

研究发现奖励功能易出现错误，为此介绍一种平衡主要奖励函数和辅助奖励函数优化的方法，即使辅助奖励函数是随机生成的，该方法也能诱导保守且有效的行为。

Feb, 2019

通过信息论奖励建模减轻奖励作弊

本研究通过引入变分信息瓶颈目标以过滤无关信息和开发模型复杂性调节机制，从信息论的角度解决了强化学习中奖励建模的问题，并通过对潜在空间中的异常值与过度优化之间的相关性进行了认识，提出了一种用于检测奖励过度优化的指标 Integrated Cluster Deviation Score (ICDS)，从而促进在线减缓策略的发展。经过一系列实验证明了 InfoRM 的有效性，进一步分析显示其奖励过度优化检测机制的有效性，这可能标志着 RLHF 领域的显著进步。

Feb, 2024

通过损坏的奖励通道进行强化学习

该研究论文探讨了在强化学习中出现奖励数据错误的情况，提出了一种通用的马尔可夫决策问题模型（Corrupt Reward MDP），并结合反向强化学习和半监督强化学习的策略对奖励数据错误的解决方法进行了探讨。同时指出在某些假设下通过随机化也可以部分解决奖励数据错误的问题。

May, 2017