通过奖励函数优化进行行为对齐

Oct, 2023

Behavior Alignment via Reward Function Optimization

Dhawal Gupta, Yash Chandak, Scott M. Jordan, Philip S. Thomas, Bruno Castro da Silva

TL;DR通过使用双层目标的新框架，将辅助奖励与环境的主要奖励相结合，我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式，以解决现有方法的主要缺点，即使给出不对齐或指定不良的辅助奖励函数，也能始终导致高性能解决方案。

Abstract

Designing reward functions for efficiently guiding reinforcement learning (RL) agents toward specific behaviors is a complex task. This is challenging since it requires the identification of reward structures tha

reward functions reinforcement learning behavior alignment auxiliary rewards policy optimization

发现论文，激发创造

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

通过奖励建模实现可扩展的智能体协调方向研究

本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向，并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。

Nov, 2018

使用层次奖励函数指定行为偏好

考虑在任务中以达到期望状态和避免不良状态的形式下，建议采用严格偏序的政策空间、环境独立的层次化奖励结构以及 Pareto 最优性的奖励函数设计，经实验证明其具有期望行为和快速学习的能力。

Dec, 2022

快速学习的奖励设计

研究如何选择奖励函数以提高强化学习的学习速度，提出基于状态的奖励设计原则，并提出线性规划算法以最大化行动差距和最小化主观贴现；通过在表格环境中使用 Q 学习算法进行实验，表明设计奖励遵循一定的原则，如逐步增加接近目标奖励，可以加速学习。

May, 2022

论学习奖励函数的脆弱性

本文研究了基于奖励学习的优化过程中，由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题，强调了需要在文献中加入更多的基于重新训练的评估方法。

Jan, 2023

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

解析奖励塑造：理解奖励工程对样本复杂性的益处

本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性，并提出了一种将奖励设计融入强化学习框架的方案，并通过基于奖励设计所得到的样本效率的提高，证明了该方案在实践中的有效性。

Oct, 2022

通过双层强化学习实现代理策略与外部性的对齐：奖励设计

以双层强化学习为基础的主体 - 代理框架，在不同方面的目标对齐下，通过寻找合适的奖励参数化，有效地使代理的策略与主体的目标保持一致。

Aug, 2023

结合超参数自动优化和奖励形状

深度强化学习在过去几年取得了显著进展，但是即使对于专家来说，找到适当的超参数配置和奖励函数仍然具有挑战性并且性能严重依赖于这些设计选择，因此我们提出了一种方法来同时优化超参数和奖励函数，实验证明综合优化可以显著改善性能，在一些环境中比基准性能好，并在其他环境中取得了竞争性表现，只有少量计算成本的增加。

Jun, 2024

自主驾驶背景下的强化学习奖励函数综述

该论文综述了强化学习在自动驾驶中的应用，讨论了奖励函数的设计挑战、不足之处以及未来可能的研究方向。

Apr, 2024