通过奖励塑造在基于情节的强化学习中利用多重抽象
本文提供了一种基于分布任务的meta-learning框架,自动学习新采样任务上的有效奖励塑形,从而解决了强化学习中信用分配的难题,并通过从DQN到DDPG的成功转移等各种设置,展示了探索 shaping 方法的有效性。
Jan, 2019
提出一种新的基于连续状态和动作空间的控制的分层强化学习框架,其中用户指定状态的子集作为子目标区域,然后学习这些子目标区域之间的转换,并在生成的抽象决策过程(ADP)中构建高层计划,通过计划在抽象层和在具体层上的学习相结合的一个实际算法,优于现有的分层强化学习算法。
Oct, 2020
本文提出了一种自适应利用给定塑形奖励函数的算法,通过将塑形奖励作为一个双层优化问题来解决,从而实现了真实奖励的最大化,并基于这个问题,提出了三种基于不同假设的学习算法。实验结果表明,我们的算法可以充分利用有益的塑形奖励,同时忽略无益的塑形奖励或者甚至将它们转化为有益的。
Nov, 2020
本文介绍了一种新的从上至下的方法,用于在执行强化学习的同时构建状态抽象,动态计算一个基于Q值分散的抽象,结果表明,这种方法自动学习细调问题的抽象,具有较强的样本效率,并使强化学习代理明显优于现有方法。
Oct, 2022
通过引入空间和时间目标抽象的三层层次强化学习(HRL)算法提高目标表示性能,评估了该算法在复杂连续控制任务上学习到的空间和时间抽象的有效性以及遗憾边界的理论研究。
Jan, 2024
利用抽象技术在有限时间内生成“好”的潜力函数,分析在Potential Based Reward Shaping中有限时间引入的偏差,并在四个不同环境中进行评估,证明我们可以通过简单的全连接网络达到与基于CNN的解决方案相同的性能水平。
Apr, 2024
我们提出了一种新颖的层次强化学习方法,针对无限时域平均奖励设置中的线性可解决的马尔可夫决策过程(LMDPs)。与以往的工作不同,我们的方法允许同时学习低级和高级任务,而不对低级任务施加限制。我们的方法依赖于创造较小子任务的状态空间分割,并利用这种分割的等价性以实现更高效的学习。然后,我们利用低级任务的组合性来准确表示高级任务的价值函数。实验表明,我们的方法可以比平坦的平均奖励强化学习高出一到几个数量级。
Jul, 2024
本研究解决了内在动机和奖励塑形在强化学习中的设计挑战,提出将其视为贝叶斯自适应马尔可夫决策过程(BAMDP)中的奖励塑形。研究表明,当伪奖励符合BAMDP潜力基础塑形函数时,可以保持强化学习算法的最优或近似最优行为,从而为奖励设计提供了新的指导。
Sep, 2024