轨迹中心增强学习的模型基与模型无更新相结合

ICMLMar, 2017

轨迹中心增强学习的模型基与模型无更新相结合

Combining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learning

Yevgen Chebotar, Karol Hausman, Marvin Zhang, Gaurav Sukhatme, Stefan Schaal...

TL;DR本文研究如何在模型无关和模型有关的强化学习方法中结合时间变化的线性高斯策略，通过基于线性二次调节器的模型有关算法与基于路径积分策略改进的模型无关框架相结合，并与指导策略搜索相结合，训练深度神经网络等任意参数策略，以提高实时机器人应用的模型效率和数据效率。研究表明，该方法可以解决具有挑战性的操作任务，其表现与模型无关方法相比具有可比性或更好的表现，同时保持模型有关方法的样本效率。

Abstract

reinforcement learning (RL) algorithms for real-world robotic applications need a data-efficient learning process and the ability to handle complex, unknown dynamical systems. These requirements are handled well by mode

reinforcement learning robotics model-free model-based linear quadratic regulator

发现论文，激发创造

基于模型的深度强化学习的神经网络动态和无模型微调

该研究论文表明，中等大小的神经网络模型实际上可以与模型预测控制（MPC）相结合，以实现在模型为基础的强化学习算法中的良好样本复杂度，并以提高深度神经网络动力学模型的样本效率为目的初始化模型自由学习。

Aug, 2017

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024

强化学习中的在线策略模型误差

本文提出了一种结合模型和真实数据的方法来弥补模型误差和偏差所带来的不足，通过将真实数据作为时间相关的学习模型的修正项以维持数据生成能力并减少预测误差，从而改进了现有的基于模型的方法。在 MuJoCo 和 PyBullet 基准测试上的实验结果表明该方法可以显著提高基于模型的方法的表现。

Oct, 2021

线性二次调节器中基于模型和免模型方法之间的差异：一种渐近观点

研究在连续控制任务上，基于模型的方法与无模型方法的样本复杂度差异，发现基于模型的策略评估方法的样本复杂度会比最小二乘时序差分方法低，且最佳控制常常需要较少的样本量，这是首次在连续控制任务上证明了基于模型和无模型方法样本复杂度的分离现象。

Dec, 2018

基于专家预测的无模型线性二次控制

本文介绍了一种新的无模型算法，用于控制线性二次系统，利用 reduce 方法，将马尔科夫决策过程的控制问题转化为专家预测问题，该算法实现简单通用，拥有多项理论保证和良好的性能。

Apr, 2018

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

先斩后奏：桥接基于模型和基于模型的无模型强化学习，为规划先进的视觉语言导航

本文提出了一种新颖的，提前计划的混合增强学习模型，将模型无关的和模型基于的强化学习相结合，以解决实际的视觉语言导航任务，并且实验结果表明，该方法在真实数据集上表现最佳，还具有更好的可扩展性。

Mar, 2018

可组合的深度强化学习在机器人操作中的应用

本研究探讨软 Q-learning 方法在真实世界机器人操作中的应用，证明软 Q-learning 方法比先前的模型自由深度强化学习方法具有更高的采样效率，并且可以通过将学习到的策略组合创建新的策略，从而在真实世界机器人操作中提供高效的工具。

Mar, 2018

MBMF: 基于模型的先验知识用于无模型强化学习

本文提出了一种新的方法，旨在将模型自由和模型相关两种范式结合起来，通过学习概率动力学模型和利用它作为模型自由优化的先验概率来实现数据有效和成本节约，并证明这种方法优于单纯的模型相关和模型自由方法，以及从模型相关模式切换到模型自由模式的方法。

Sep, 2017

时序差分模型：无模型深度强化学习用于模型控制

介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数，称为时间差分模型，它可以利用状态转移的丰富信息来非常高效地学习，同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明，在一系列连续控制任务中，TDM 相比最先进的模型无关和模型相关方法提供了实质性的改进。

Feb, 2018