基于模型的规划与策略网络的探索

Jun, 2019

基于模型的规划与策略网络的探索

Exploring Model-based Planning with Policy Networks

Tingwu Wang, Jimmy Ba

TL;DR该研究提出了一种新的基于模型的策略规划（POPLIN）算法，将策略网络与在线规划相结合，通过神经网络在每个时间步骤中优化动作规划，并通过 MuJoCo 基准环境验证其取得了业界领先的性能表现。

Abstract

model-based reinforcement learning (MBRL) with model-predictive control or online planning has shown great potential for locomotion control tasks in terms of both →

model-based reinforcement learning online planning policy networks optimization sample efficiency

发现论文，激发创造

策略预测网络：在连续动作空间中，基于模型学习的无模型行为策略

本文提出了一种具有离散动作空间的树形结构之前所未有的强化学习方法， Policy Prediction Network，该方法结合了模型自由与模型驱动强化学习，采用了经验证实的裁剪方法，实现了对连续动作空间的模型驱动学习并使其能够更好地适应 MuJoCo 环境等连续控制问题。

Sep, 2019

基于模型的离线规划

提出一种基于模型的离线学习算法 (MBOP)，其可以通过规划直接控制系统。该算法在一系列机器人任务中表现出良好性能，并能够创建零 - shot 目标条件策略。

Aug, 2020

高效的多智能体强化学习规划

多智能体强化学习算法（MARL）通过采取模型化方法来提高样本效率并在多个任务中表现出可比或更好的性能。

May, 2024

基于模型的脱机 Planning 与轨迹剪枝

本研究提出了一个新型的轻量级基于模型的离线规划框架 MOPP，通过通过学习数据中的行为策略鼓励更激进的轨迹回放，并修剪出问题轨迹，以避免潜在的超出分布样本，相对于现有模型的离线规划和 RL 方法表现更具有竞争性。

May, 2021

面向策略梯度方法的策略感知模型学习

本文研究了模型基强化学习中模型的学习，提出了基于 Policy-Aware Model Learning (PAML) 的带权损失函数来学习模型，结果证明该方法在某些基准问题上表现良好。

Feb, 2020

在线规划，离线学习：基于模型控制的高效学习和探索

提出了一种 POLO (计划在线，学习离线) 框架，利用局部基于模型的控制、全局价值函数学习和探索之间的协同关系来解决需要不断在世界中行动和学习的代理问题，并探讨了轨迹优化、价值函数的近似和不确定性估计等方面的问题，最终在几分钟的真实世界体验中解决了类人运动和灵巧的手中操作这样的复杂模拟控制任务。

Nov, 2018

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

基于 Lyapunov 的连续控制安全策略优化

本研究利用 Lyapunov 方法，构建了基于约束的马尔可夫决策过程（CMDP）模型，并使用深度确定性策略梯度（DDPG）或近端策略优化（PPO）等标准策略梯度方法进行训练，通过将策略参数或动作投影到由状态相关线性化 Lyapunov 约束引起的可行解集合上，以实现策略的近似约束满足，并且实现了较少保守的策略更新，针对数个模拟（MuJoCo）任务以及实际室内机器人导航问题的评估表明了我们算法的有效性，同时具有较高的数据利用效率。

Jan, 2019

基于模型的规划提炼出有理论保证的策略改进

通过开发一种从基于模型的规划到策略的蒸馏方法，我们扩展了软负责人 - 评论者算法（SAC）的策略改进步骤，并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。

Jul, 2023

超网络下的连续模型强化学习

通过使用任务条件超网络连续学习遇到的动态模型，HyperCRL 方法在机器人运动和操作任务中实现了连续模型基于强化学习，而不需要重新训练之前的任务，同时超越了现有的连续学习替代方法

Sep, 2020