基于潜力的奖励塑造对内在动机的影响

Feb, 2024

基于潜力的奖励塑造对内在动机的影响

Potential-Based Reward Shaping For Intrinsic Motivation

Grant C. Forbes, Nitish Gupta, Leonardo Villalobos-Arias, Colin M. Potts, Arnav Jhala...

TL;DR最近出现了大量的内在动机（IM）奖励塑造方法来学习复杂和稀疏奖励的环境。在这些方法中，往往会无意中改变环境中的最优策略集，导致次优行为。我们提出了一个扩展的潜在基于奖励塑造（PBRS）方法，我们证明它在比之前更一般的函数集合下保留了最优策略集。同时，我们还提出了一种名为 “基于潜在的内在动机”（PBIM）的方法，将 IM 奖励转化为基于潜在的形式，而无需改变最优策略集。在 MiniGrid DoorKey 和 Cliff Walking 环境中的测试中，我们证明 PBIM 成功防止了智能体收敛到次优策略并且可以加速训练。

Abstract

Recently there has been a proliferation of intrinsic motivation (IM) reward-shaping methods to learn in complex and sparse-reward environments. These methods can often inadvertently change the set of

intrinsic motivation reward-shaping methods potential-based reward shaping optimal policies potential-based intrinsic motivation

发现论文，激发创造

基于位势的奖励用于学习人形机械的运动能力评测

设计和调整奖励函数是发展有效强化学习（RL）流程的主要挑战之一。在这项研究中，我们使用潜在基础奖励塑造（PBRS）来加速学习收敛，在高维系统中，PBRS 对于收敛速度的提升有限，但是 PBRS 奖励项相对缩放更加稳健，更容易调整。

Jul, 2023

强化学习中抽象和基于潜力的奖励塑形的样本效率研究

利用抽象技术在有限时间内生成 “好” 的潜力函数，分析在 Potential Based Reward Shaping 中有限时间引入的偏差，并在四个不同环境中进行评估，证明我们可以通过简单的全连接网络达到与基于 CNN 的解决方案相同的性能水平。

Apr, 2024

强化学习的受限内在动机

该研究探讨了在无奖励预训练和探索过程中利用内在动机进行强化学习时出现的两个基本问题：如何设计有效的内在目标，并在探索过程中减少内在目标引入的偏差。通过提出具有约束的内在动机方法，在无奖励预训练和探索过程中解决了现有方法存在的静态技能、有限状态覆盖、样本效率低和次优性等问题，并在多个 MuJoCo 机器人环境中进行了验证和性能对比。

Jul, 2024

基于潜在函数的塑形和 Q - 值初始化是等价的

探讨了基于 potential-based shaping algorithm 的初始化步骤与 reinforcement learning 算法学习过程中的相似性，证明二者在一个广泛类别的策略下是无法区分的，并提出了一个更简单方法以捕捉该算法的好处以及有关使用 potential-based shaping 算法进行学习的效率的问题。

Jun, 2011

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

面向目标驱动任务的基于计划的放松奖励塑形

本文提出了一种解决状态空间高维时强化学习探索问题的 Final-Volume-Preserving Reward Shaping (FV-RS) 方法，相比于之前的 potential-based reward shaping 方法，FV-RS 放松了不断保持最优解保证，从而更适合于提高强化学习算法的样本效率，并在模拟机器人操作任务中实现了显著的改进

Jul, 2021

朝着计算高效的逆强化学习方向进发：通过奖励塑形

逆向强化学习是具有计算挑战性的，常见方法需要解决多个强化学习子问题。本研究激励使用基于潜力的奖励塑造来减轻每个强化学习子问题的计算负担，并希望能激发未来对计算效率高的逆向强化学习的发展。

Dec, 2023

通过内在奖励调节行为：一项调查和实证研究

本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制，探索并比较不同的内在回报机制，重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明，基于学习量的内在奖励可以生成有用的行为，如果每个学习器是内省的。

Jun, 2019

基于磁场的奖励设计器用于目标导向式强化学习

本文提出了一种基于磁场的奖励制形式，结合了非线性和非各向同性分布，将传统奖励制应用于目标驱动的强化学习任务，得到更好的样本效率和学习性能。根据磁铁所产生的磁场强度建立奖励函数，并通过学习二次潜在函数以实现最优策略不变性。实验结果表明，相对于现有奖励制方法，该方法在模拟和现实世界中的机器人操纵任务中表现出更好的性能。

Jul, 2023

学习策略梯度方法的内部奖励

本文中，研究了在序列决策任务中，优化奖励函数对于强化学习的性能具有重要意义，提出了一种适用于基于策略梯度的学习代理的学习内在奖励的算法，并在性能上对比了使用该方法的强化学习代理和仅使用外在奖励的代理。

Apr, 2018