在线规划，离线学习：基于模型控制的高效学习和探索

ICLRNov, 2018

在线规划，离线学习：基于模型控制的高效学习和探索

Plan Online, Learn Offline: Efficient Learning and Exploration via Model-Based Control

Kendall Lowrey, Aravind Rajeswaran, Sham Kakade, Emanuel Todorov, Igor Mordatch

TL;DR提出了一种 POLO (计划在线，学习离线) 框架，利用局部基于模型的控制、全局价值函数学习和探索之间的协同关系来解决需要不断在世界中行动和学习的代理问题，并探讨了轨迹优化、价值函数的近似和不确定性估计等方面的问题，最终在几分钟的真实世界体验中解决了类人运动和灵巧的手中操作这样的复杂模拟控制任务。

Abstract

We propose a plan online and learn offline (POLO) framework for the setting where an agent, with an internal model, needs to continually act and learn in the world. Our work builds on the synergistic relationship between local model-based control, global value function learning, and ex

plan online and learn offline framework local model-based control global value function learning trajectory optimization uncertainty estimation

发现论文，激发创造

基于模型的离线规划

提出一种基于模型的离线学习算法 (MBOP)，其可以通过规划直接控制系统。该算法在一系列机器人任务中表现出良好性能，并能够创建零 - shot 目标条件策略。

Aug, 2020

在线规划下的离线策略学习

研究了半参数 H 步先知政策在深度强化学习中的应用，提出了 Learning Off-Policy with Online Planning (LOOP) 方法，该方法使用学习模型和终端价值函数，并通过 Actor Regularized Control (ARC) 解决了政策发散的问题。LOOP 不仅提高了离线和在线 RL 的性能，还可灵活应用于安全约束的实现，是一个适用于机器人应用的强大的 RL 框架。

Aug, 2020

基于好奇心探索的目标条件离线规划

通过分析优化目标条件下的价值函数的几何特征，我们提出了一种使用基于模型的规划和基于图形的价值聚合方案相结合的方法来纠正学习价值函数中的估计伪像，并在各种模拟环境中显著提高了零 - shot 目标达成性能。

Nov, 2023

从离线数据中学习可变目标的控制策略

离线强化学习是一种获取动态系统先进控制策略的可行方法，尤其是在无法直接与环境互动时。本文介绍了一种名为可变目标策略（VOP）的基于模型的策略搜索方法的概念扩展。通过此方法，策略被训练以有效地泛化各种目标，这些目标对奖励函数进行参数化。我们证明了通过改变作为输入传递给策略的目标，用户可以在运行时自由调整其行为或重新平衡优化目标，无需收集额外的观察数据或重新训练。

Aug, 2023

有限探索的双层离线策略优化

我们研究线下强化学习，旨在根据固定、预先收集的数据集学习出良好的策略。我们提出了一种双层结构的策略优化算法，通过模拟策略（上层）和值函数（下层）之间的层次交互来解决此任务中的分布偏移问题，尤其是在函数逼近的情况下。

Oct, 2023

应对挑战环境中机器人探索的在线自适应无导数评估

该论文介绍了一种基于状态价值函数、离线蒙特卡罗训练和基于传感器信息的内在奖励函数的机器人探索方法，该方法能够更好地预测未来状态的价值以更好地指导机器人探索，在挑战性的地下和城市环境中首次应用于真实世界数据集中。

Apr, 2022

基于模型预测控制的高效强化学习的价值估计

通过数据驱动方法，基于模型预测控制设计了一种改进的强化学习方法，该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。

Oct, 2023

基于模型的规划与策略网络的探索

该研究提出了一种新的基于模型的策略规划（POPLIN）算法，将策略网络与在线规划相结合，通过神经网络在每个时间步骤中优化动作规划，并通过 MuJoCo 基准环境验证其取得了业界领先的性能表现。

Jun, 2019

针对连续控制评估基于模型的规划和规划器分摊

本文探讨了基于模型的控制方法是否能够超越基于数据的方法。研究人员通过将模型预测控制与学习模型和基于数据的策略学习相结合的方式，对多种具有挑战性的运动任务进行了评估，并发现：经过良好调节的基于数据的策略学习代理是高自由度控制问题的强基准。但是，针对困难的多任务 / 多目标场景，经过训练的动态模型和学习的策略作为模型预测控制的建议，可以显著提高性能和数据效率。最后，研究表明，即使没有性能损失，也可以将基于模型的规划器简化为一种策略，从而将计划计算的负担分担到了策略中。

Oct, 2021

离线监督学习 VS 在线直接策略优化：神经网络最优反馈控制的比较研究和统一训练范式

本文旨在寻找以神经网络为基础的反馈控制器，以高效地解决最优控制问题。研究表明，在线直接政策优化和离线监督学习这两种方法中，离线监督学习的优化和训练时间更具优势，并提出了一种称为 'Supervised Pre-train and Fine-tune' 的训练方法，可显著提高性能和鲁棒性。

Nov, 2022