基于偏好的奖励学习中因果混淆和奖励误识别问题

ICLRApr, 2022

基于偏好的奖励学习中因果混淆和奖励误识别问题

Causal Confusion and Reward Misidentification in Preference-Based Reward Learning

Jeremy Tien, Jerry Zhi-Yang He, Zackory Erickson, Anca D. Dragan, Daniel S. Brown

TL;DR通过偏好学习奖励的策略是一种定制代理行为的越来越受欢迎的方法，本文通过敏感度和消融分析，发现不能考虑多种因素会导致出乎意料和不良行为，如奖励误认和因果混淆等。

Abstract

Learning policies via preference-based reward learning is an increasingly popular method for customizing agent behavior, but has been shown anecdotally to be prone to spurious correlations and reward hacking behaviors. While much prior work focuses on →

preference-based reward learning causal confusion reward misidentification non-causal distractor features partial state observability

发现论文，激发创造

论学习奖励函数的脆弱性

本文研究了基于奖励学习的优化过程中，由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题，强调了需要在文献中加入更多的基于重新训练的评估方法。

Jan, 2023

策略优化中的不变性和奖励学习中的部分识别性

研究奖励学习中数据来源的可识别性，通过设计和选择数据来源，分析数据来源和后续任务的不变性，从而提高政策优化的性能

Mar, 2022

ReCCoVER：检测可解释强化学习中的因果混淆

本文提出了 ReCCoVER 算法，该算法可以在出现因果混淆的情况下增强深度强化学习智能体的透明度和可靠性，并为开发人员提供基于实际状态空间的特征选择建议。

Mar, 2022

基于偏好的强化学习中的探索奖励不确定性

本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题，并在 MetaWorld 基准测试的复杂机器人操作任务中证明了其有效性。

May, 2022

奖励错误规划的影响：映射和缓解不匹配的模型

此研究探讨了 RL 代理程序如何利用奖励错误来获取更高的代理奖励和更低的真实奖励，并发现了能力阈值、偏差检测任务和基线探测器可以提高监测 ML 系统的安全性。

Jan, 2022

学习未规定模型的奖励函数

本研究提出了一种新颖的误差界限，用于解决模型不完美时生成的错误状态如何正确分配奖励值的问题，并在实验中证明其在基于模型的强化学习中的有效性。

Jan, 2018

模仿学习中的因果混淆

利用行为克隆将策略学习简化为监督学习，但忽略因果关系可能导致因果误识问题，可通过相应的干预（环境交互或专家查询）确定正确的因果模型来解决。研究表明，该问题在多个领域中都存在，例如控制问题和驾驶问题，并经过了与 DAgger 等基线和消融进行验证。

May, 2019

从偏好中学习最佳优势，并将其误认为奖励

研究文章探讨了从人类偏好中学习奖励函数的算法，特别是在人类反馈的强化学习中，最近一些工作对假设人类偏好仅基于路径片段内积累的奖励或者部分回报的有效性提出了质疑，并提出了基于遗憾的替代偏好模型。研究结论发现，当将基于部分回报的偏好错误地用作奖励函数时，尽管存在特定的问题，但并不会产生太大的影响，仍然可以产生高度优化的奖励函数，但这种使用方式并不理想，相比之下，采用基于贪心法的最大化奖励函数的方法更为简单和合适。从遗憾偏好模型的角度来看，我们还对将当代大型语言模型与强化学习结合进行模型微调提出了更清晰的解释。总的来说，本文对于解释部分回报偏好模型为什么在实践中效果如此好的原因提供了见解，尽管该模型与人类偏好的方式不太吻合。

Oct, 2023

正例 - 未标注奖励学习

本文针对学习奖励模型所面临的挑战，探讨了正例 - 无标记学习算法（positive-unlabeled learning）在奖励学习问题中的应用，并验证该方法可以同时解决奖励低估和高估问题，从而显著提高 both GAIL and supervised 奖励学习的效果。

Nov, 2019

人类学习奖励函数的偏好模型

通过基于遗憾而非局部回报的人类偏好模型，可以更好地学习与人类利益相符的奖励函数，从而实现政策的对齐。

Jun, 2022