基于模型的规划与策略网络的探索
本文提出了一种具有离散动作空间的树形结构之前所未有的强化学习方法, Policy Prediction Network, 该方法结合了模型自由与模型驱动强化学习,采用了经验证实的裁剪方法,实现了对连续动作空间的模型驱动学习并使其能够更好地适应 MuJoCo 环境等连续控制问题。
Sep, 2019
本研究提出了一个新型的轻量级基于模型的离线规划框架 MOPP,通过通过学习数据中的行为策略鼓励更激进的轨迹回放,并修剪出问题轨迹,以避免潜在的超出分布样本,相对于现有模型的离线规划和 RL 方法表现更具有竞争性。
May, 2021
本文研究了模型基强化学习中模型的学习,提出了基于 Policy-Aware Model Learning (PAML) 的带权损失函数来学习模型, 结果证明该方法在某些基准问题上表现良好。
Feb, 2020
提出了一种 POLO (计划在线,学习离线) 框架,利用局部基于模型的控制、全局价值函数学习和探索之间的协同关系来解决需要不断在世界中行动和学习的代理问题,并探讨了轨迹优化、价值函数的近似和不确定性估计等方面的问题,最终在几分钟的真实世界体验中解决了类人运动和灵巧的手中操作这样的复杂模拟控制任务。
Nov, 2018
本研究利用 Lyapunov 方法,构建了基于约束的马尔可夫决策过程(CMDP)模型,并使用深度确定性策略梯度(DDPG)或近端策略优化(PPO)等标准策略梯度方法进行训练,通过将策略参数或动作投影到由状态相关线性化 Lyapunov 约束引起的可行解集合上,以实现策略的近似约束满足,并且实现了较少保守的策略更新,针对数个模拟(MuJoCo)任务以及实际室内机器人导航问题的评估表明了我们算法的有效性,同时具有较高的数据利用效率。
Jan, 2019
通过开发一种从基于模型的规划到策略的蒸馏方法,我们扩展了软负责人 - 评论者算法(SAC)的策略改进步骤,并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。
Jul, 2023
通过使用任务条件超网络连续学习遇到的动态模型,HyperCRL 方法在机器人运动和操作任务中实现了连续模型基于强化学习,而不需要重新训练之前的任务,同时超越了现有的连续学习替代方法
Sep, 2020