使用层次奖励函数指定行为偏好

Dec, 2022

Specifying Behavior Preference with Tiered Reward Functions

Zhiyuan Zhou, Henry Sowerby, Michael L. Littman

TL;DR考虑在任务中以达到期望状态和避免不良状态的形式下，建议采用严格偏序的政策空间、环境独立的层次化奖励结构以及 Pareto 最优性的奖励函数设计，经实验证明其具有期望行为和快速学习的能力。

Abstract

Reinforcement-learning agents seek to maximize a reward signal through environmental interactions. As humans, our contribution to the learning process is through designing the reward function. Like programmers, we have a behavior in mind and have to translate it into a formal specification, namely rewards. In this work, we consider the reward-design problem

reinforcement learning reward design policy space pareto-optimal fast learning

发现论文，激发创造

快速学习的奖励设计

研究如何选择奖励函数以提高强化学习的学习速度，提出基于状态的奖励设计原则，并提出线性规划算法以最大化行动差距和最小化主观贴现；通过在表格环境中使用 Q 学习算法进行实验，表明设计奖励遵循一定的原则，如逐步增加接近目标奖励，可以加速学习。

May, 2022

通过奖励函数优化进行行为对齐

通过使用双层目标的新框架，将辅助奖励与环境的主要奖励相结合，我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式，以解决现有方法的主要缺点，即使给出不对齐或指定不良的辅助奖励函数，也能始终导致高性能解决方案。

Oct, 2023

论学习奖励函数的脆弱性

本文研究了基于奖励学习的优化过程中，由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题，强调了需要在文献中加入更多的基于重新训练的评估方法。

Jan, 2023

感知奖励函数

该论文研究了使用感知奖励函数的方法，以提供视觉任务的描述，使代理能够从基于原始像素而不是内部参数的奖励中进行学习。

Aug, 2016

深度强化学习从人类偏好中学习

本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法，并且证明此方法可实现许多复杂的强化学习任务，包括 Atari 游戏和模拟机器人，同时也大幅降低了人类监督成本，以及展示了本方法的灵活性，并可成功使用较短时间完成复杂的新颖行为的训练，同时也采用了前人的人类反馈信息和环境。

Jun, 2017

突破极限：重塑强化学习中的奖励

强化学习中，选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法，适用于确定性和随机环境，并将其与现有的强化学习算法相结合。在实验中，我们研究了该算法在两个目标达成环境中的性能，并证明了其相对于标准强化学习算法的优势。

Feb, 2024

一种用于基于偏好奖励学习的泛化获取函数

优化查询方法在学习奖励函数上的表现优于信息增益方法。

Mar, 2024

提高代理学习的方法：保证所有回合实现目标

强化学习是解决环境并实现目标达成的框架，该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明，该算法能够增强学习效果并保持目标的达成性质。

May, 2024

最优政策往往追求权力

在强化学习中，我们证明了某些环境的对称性足以使最优策略倾向于在环境中寻求更多的控制力，以达到最大化平均奖励的目的。

Dec, 2019

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018