面向策略梯度方法的策略感知模型学习
本文提出了一种基于价值梯度加权的模型学习方法(VaGraM),通过改进价值感知模型的学习,提高在小模型容量和存在干扰状态维度等具有挑战性的环境下的 Model-based reinforcement learning (MBRL) 的性能。与常用的基于最大似然估计(MLE)的方法相比,我们的方法表现更优
Apr, 2022
本文介绍了 Ready Policy One (RP1),将基于模型的强化学习视为一个主动学习问题,利用混合目标函数,在优化期间关键性的适应,以便在学习的不同阶段权衡奖励与探索,同时介绍了一个原则性的机制以停止样本收集。在多个连续控制任务中对方法进行了严格评估,并证明了与现有方法相比的显著增益。
Feb, 2020
本文提出了一种新的框架,将基于模型的强化学习(MBRL)视为博弈,通过构建领导者与跟随者之间的 Stackelberg 博弈来简化算法设计,并设计了两种自然算法家族,旨在促进样本效率。
Apr, 2020
本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果,提出了一种新的误差界,利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。
Dec, 2016
本文提出了一种迭代离线模型学习 (MBRL) 框架,其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限,从而解决了动态模型和策略学习之间的目标不匹配问题,从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。
Oct, 2022
本文研究了 MuZero,一种先进的模型基强化学习算法在控制任务、Atari 游戏和 9x9 围棋等多种环境下的表现,阐述了规划在强化学习中的作用,以及如何在规划过程中优化算法,提高表现,并指出单独采用规划无法实现强的泛化能力。
Nov, 2020
在多任务、异构和无模型的情况下,我们研究了学习线性二次调节器(LQR)的问题。我们表征了基于策略梯度的无模型元学习方法(MAML)(Finn et al.,2017)在不同任务异质性设置下的稳定性和个性化保证。我们展示了 MAML-LQR 方法在模型为基础和无模型设置下产生了一个接近每个任务特定最优控制器的稳定控制器,直到任务异质性偏差为止。此外,在模型为基础的设置中,我们展示了这个控制器以线性收敛速度实现,这在现有的 MAML-LQR 工作中改进了次线性速度。与现有的 MAML-LQR 结果相比,我们的理论保证证明了学到的控制器可以高效地适应未见的 LQR 任务。
Jan, 2024
该研究利用一种新的形式结构,提出了一种基于模型的层次强化学习算法,名为 PALM,可学习独立、模块化的转移和奖励模型用于概率规划,并演示了其将规划和执行进行集成,以快速有效地学习抽象、分层模型以及转移至新的相关任务的增强潜力。
Dec, 2019
该研究提出了一种新的基于模型的策略规划(POPLIN)算法,将策略网络与在线规划相结合,通过神经网络在每个时间步骤中优化动作规划,并通过 MuJoCo 基准环境验证其取得了业界领先的性能表现。
Jun, 2019