层次强化学习的抽象值迭代
论文提出了一种算法框架,称为层次性指导,旨在通过利用专家的反馈来学习序贯决策制定策略,以应对奖励稀疏和时间范围长等问题,该框架可以在不同的层次上组合不同的imitation learning和reinforcement learning,从而大大减少专家工作量和探索成本,并对该框架的某些实例的标注成本进行了理论分析。
Mar, 2018
本文提出了一种新的分层强化学习算法HiPPO,它可以根据新任务的训练不断调整技能并与更高层次一起训练,该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度,并提出了一种训练时抽象方法,以提高所获得技能对环境变化的鲁棒性。
Jun, 2019
该研究利用一种新的形式结构,提出了一种基于模型的层次强化学习算法,名为PALM,可学习独立、模块化的转移和奖励模型用于概率规划,并演示了其将规划和执行进行集成,以快速有效地学习抽象、分层模型以及转移至新的相关任务的增强潜力。
Dec, 2019
本文研究了基于目标的层次强化学习(HRL)中高层次行动空间(即目标空间)的训练效率问题,提出了使用邻接约束把高层次动作空间限制为当前状态的$k$步领域,证明该约束在确定性MDPs下保留了最优层次策略,实现方法是训练一个区分相邻和非相邻子目标的邻接网络,在实验中验证了该约束在离散和连续控制任务中显著提高了HRL方法的性能。
Jun, 2020
本文提出了一种层次算法用于从演示中学习序列模型,可解决强化学习中的任务策略估计问题,通过选择子目标来指导低层控制器完成任务,改善了以往方法的性能,并证明了其在多项任务中优于基线方法,表明层次模型适用于从演示中学习序列模型。
Sep, 2022
研究提出了一种基于奖励设计的强化学习算法,通过使用层次结构的抽象模型,将抽象层级中的解决方案用于指导更复杂领域的学习,从而提高了学习效率且具有实际应用价值。
Feb, 2023
通过引入空间和时间目标抽象的三层层次强化学习(HRL)算法提高目标表示性能,评估了该算法在复杂连续控制任务上学习到的空间和时间抽象的有效性以及遗憾边界的理论研究。
Jan, 2024
目前的论文旨在探索强化学习领域,并在现有方法的基础上构建改进方法,以解决高维度和复杂环境中的学习问题。它通过分层的方式(称为层次强化学习)来分解学习任务,通过构建自主地学习层级结构的代理来提高效果。
Mar, 2024
层次模型强化学习(HMBRL)旨在将模型强化学习(MBRL)的更好的样本效率与层次化强化学习(HRL)的抽象能力结合起来,以高效地解决复杂任务。我们在这项工作中描述了一个新颖的HMBRL框架,并进行了全面评估。通过构建模拟不同时间抽象水平下环境动态的层次化世界模型来补充HRL的多层次决策制定方式。这些模型用于训练一系列以自上而下方式进行通信的代理,向下级代理提出目标。本研究的一个重点是探索静态且环境无关的时间抽象,从而允许在层次结构中同时训练模型和代理。与大多数以目标条件化的H(MB)RL方法不同,这也导致了较低维度的抽象动作。尽管我们的HMBRL方法在最终回合收益方面表现没有传统方法好,但它成功地利用紧凑、低维度的抽象动作在两个抽象层次上进行决策。我们在全面的实验中揭示了提高我们方法性能的一个核心挑战,即在我们的世界模型堆栈的抽象层级上进行模型利用。我们对这个问题进行了深入研究,讨论了它对领域的影响,并提出了克服这一挑战的未来研究方向。通过分享这些发现,我们旨在为改进HMBRL方法论的广泛讨论做出贡献,并帮助开发更有效的复杂决策环境的自主学习系统。
Jun, 2024
我们提出了一种新颖的层次强化学习方法,针对无限时域平均奖励设置中的线性可解决的马尔可夫决策过程(LMDPs)。与以往的工作不同,我们的方法允许同时学习低级和高级任务,而不对低级任务施加限制。我们的方法依赖于创造较小子任务的状态空间分割,并利用这种分割的等价性以实现更高效的学习。然后,我们利用低级任务的组合性来准确表示高级任务的价值函数。实验表明,我们的方法可以比平坦的平均奖励强化学习高出一到几个数量级。
Jul, 2024