优化学习奖励函数的危险性：低训练误差并不能保证低后悔

Jun, 2024

优化学习奖励函数的危险性：低训练误差并不能保证低后悔

The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret

Lukas Fluri, Leon Lang, Alessandro Abate, Patrick Forré, David Krueger...

TL;DR通过数学证明，该论文指出学习到的奖励模型的预期测试误差越低，最差情况的后悔也越小，然而对于任意固定预期测试误差而言，存在着导致误差和后悔不匹配的现实数据分布，该问题即使在使用常见的强化学习方法中同样存在。因此，该论文的理论结果强调了开发衡量学习到奖励模型质量的新方法的重要性。

Abstract

In reinforcement learning, specifying reward functions that capture the intended task can be very challenging. reward learning aims to address this issue by learning the reward function. However, a learned reward

reinforcement learning reward learning error-regret mismatch distributional shift policy optimization

发现论文，激发创造

从偏好中学习最佳优势，并将其误认为奖励

研究文章探讨了从人类偏好中学习奖励函数的算法，特别是在人类反馈的强化学习中，最近一些工作对假设人类偏好仅基于路径片段内积累的奖励或者部分回报的有效性提出了质疑，并提出了基于遗憾的替代偏好模型。研究结论发现，当将基于部分回报的偏好错误地用作奖励函数时，尽管存在特定的问题，但并不会产生太大的影响，仍然可以产生高度优化的奖励函数，但这种使用方式并不理想，相比之下，采用基于贪心法的最大化奖励函数的方法更为简单和合适。从遗憾偏好模型的角度来看，我们还对将当代大型语言模型与强化学习结合进行模型微调提出了更清晰的解释。总的来说，本文对于解释部分回报偏好模型为什么在实践中效果如此好的原因提供了见解，尽管该模型与人类偏好的方式不太吻合。

Oct, 2023

顺序任务设置中最小化局部遗憾的谬误

强化学习中，研究任务间具有变化时，通过最小化后悔累积可以实现更好的结果，即在每个任务中过度探索，尤其在任务之间出现重大变化时。

Mar, 2024

人类学习奖励函数的偏好模型

通过基于遗憾而非局部回报的人类偏好模型，可以更好地学习与人类利益相符的奖励函数，从而实现政策的对齐。

Jun, 2022

学习未规定模型的奖励函数

本研究提出了一种新颖的误差界限，用于解决模型不完美时生成的错误状态如何正确分配奖励值的问题，并在实验中证明其在基于模型的强化学习中的有效性。

Jan, 2018

论学习奖励函数的脆弱性

本文研究了基于奖励学习的优化过程中，由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题，强调了需要在文献中加入更多的基于重新训练的评估方法。