通过奖励塑造在基于情节的强化学习中利用多重抽象

Feb, 2023

通过奖励塑造在基于情节的强化学习中利用多重抽象

Exploiting Multiple Abstractions in Episodic RL via Reward Shaping

Roberto Cipollone, Giuseppe De Giacomo, Marco Favorito, Luca Iocchi, Fabio Patrizi

TL;DR研究提出了一种基于奖励设计的强化学习算法，通过使用层次结构的抽象模型，将抽象层级中的解决方案用于指导更复杂领域的学习，从而提高了学习效率且具有实际应用价值。

Abstract

One major limitation to the applicability of reinforcement learning (RL) to many practical domains is the large number of samples required to learn an optimal policy. To address this problem and improve learning

发现论文，激发创造

元学习中的奖励塑形

本文提供了一种基于分布任务的meta-learning框架，自动学习新采样任务上的有效奖励塑形，从而解决了强化学习中信用分配的难题，并通过从DQN到DDPG的成功转移等各种设置，展示了探索 shaping 方法的有效性。

Jan, 2019

层次强化学习的抽象值迭代

提出一种新的基于连续状态和动作空间的控制的分层强化学习框架，其中用户指定状态的子集作为子目标区域，然后学习这些子目标区域之间的转换，并在生成的抽象决策过程(ADP)中构建高层计划，通过计划在抽象层和在具体层上的学习相结合的一个实际算法，优于现有的分层强化学习算法。

Oct, 2020

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

非马尔科夫决策过程中PAC强化学习的马尔科夫抽象

本文提出了一种结合自动机学习和经典强化学习的算法，用于学习非马尔可夫决策流程中的马尔科夫抽象，并且证明该算法具有PAC保证。

Apr, 2022

样本高效强化学习的动态抽象表示学习

本文介绍了一种新的从上至下的方法，用于在执行强化学习的同时构建状态抽象，动态计算一个基于Q值分散的抽象，结果表明，这种方法自动学习细调问题的抽象，具有较强的样本效率，并使强化学习代理明显优于现有方法。

Oct, 2022

协调空间和时间抽象以实现目标表征

通过引入空间和时间目标抽象的三层层次强化学习（HRL）算法提高目标表示性能，评估了该算法在复杂连续控制任务上学习到的空间和时间抽象的有效性以及遗憾边界的理论研究。

Jan, 2024

强化学习中抽象和基于潜力的奖励塑形的样本效率研究

利用抽象技术在有限时间内生成“好”的潜力函数，分析在Potential Based Reward Shaping中有限时间引入的偏差，并在四个不同环境中进行评估，证明我们可以通过简单的全连接网络达到与基于CNN的解决方案相同的性能水平。

Apr, 2024

分层平均奖励线性可解的马尔可夫决策过程

我们提出了一种新颖的层次强化学习方法，针对无限时域平均奖励设置中的线性可解决的马尔可夫决策过程（LMDPs）。与以往的工作不同，我们的方法允许同时学习低级和高级任务，而不对低级任务施加限制。我们的方法依赖于创造较小子任务的状态空间分割，并利用这种分割的等价性以实现更高效的学习。然后，我们利用低级任务的组合性来准确表示高级任务的价值函数。实验表明，我们的方法可以比平坦的平均奖励强化学习高出一到几个数量级。

Jul, 2024

BAMDP塑形：内在动机与奖励塑形的统一理论框架

本研究解决了内在动机和奖励塑形在强化学习中的设计挑战，提出将其视为贝叶斯自适应马尔可夫决策过程（BAMDP）中的奖励塑形。研究表明，当伪奖励符合BAMDP潜力基础塑形函数时，可以保持强化学习算法的最优或近似最优行为，从而为奖励设计提供了新的指导。

Sep, 2024