基于模型的持续深度 Q 学习加速

Mar, 2016

Continuous Deep Q-Learning with Model-based Acceleration

Shixiang Gu, Timothy Lillicrap, Ilya Sutskever, Sergey Levine

TL;DR本研究探讨了算法和表示方法，以降低针对连续控制任务的深度强化学习的样本复杂度，并提出了两种互补的技术来提高这种算法的效率，包括导出连续 Q 学习算法的归一化优势函数以及使用学习的模型来加速无模型强化学习，并在一组模拟机器人控制任务中表现出明显的改进。

Abstract

model-free reinforcement learning has been successfully applied to a range of challenging problems, and has recently been extended to handle large neural network policies and value functions. However, the sample complex

model-free reinforcement learning deep reinforcement learning continuous control tasks sample complexity learned models

发现论文，激发创造

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

基于模型的深度强化学习的神经网络动态和无模型微调

该研究论文表明，中等大小的神经网络模型实际上可以与模型预测控制（MPC）相结合，以实现在模型为基础的强化学习算法中的良好样本复杂度，并以提高深度神经网络动力学模型的样本效率为目的初始化模型自由学习。

Aug, 2017

最近邻 Q 学习

该论文研究利用最近邻回归方法的最近邻 Q 学习算法，从单一样本路径中学习具有连续状态空间和未知转移核的无限期贴现 MDPs 的最优 Q 函数，提供了紧密的有限样本收敛速率分析和样本复杂度。

Feb, 2018

时序差分模型：无模型深度强化学习用于模型控制

介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数，称为时间差分模型，它可以利用状态转移的丰富信息来非常高效地学习，同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明，在一系列连续控制任务中，TDM 相比最先进的模型无关和模型相关方法提供了实质性的改进。

Feb, 2018

增长型 Q 网络：用自适应控制分辨率解决连续控制任务

近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力，通过粗糙的动作空间离散化实现了有利的探索特性，而在没有动作惩罚的情况下，最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长，结合解耦的 Q 学习最新成果，将我们的方法扩展到高维动作空间，最多达到 dim (A) = 38。我们的研究表明，自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法，在连续控制任务上表现出令人惊讶的强大性能。

Apr, 2024

具有理论支持的样本重用的广义政策改进算法

该研究提出了一类广义政策提升算法，将在线算法和离线算法相结合，在保证策略改进的同时，实现了高效数据复用，为深度强化学习的实际应用提供了可行性。

Jun, 2022

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

来自不完美演示的强化学习

提出了一种名为规范化演员 - 评论家（NAC）的统一增强学习算法，它将从展示中学习的初始化策略网络与环境中推荐的策略网络结合起来，是一种优于现有基线的鲁棒性学习算法，可用于在几个真实驾驶游戏中的表现。

Feb, 2018

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

突发模型变化下的强化学习

提出了一种基于模型无关算法的强化学习问题解决方案，该算法通过与环境互动学习最优策略，并利用最快的变化检测算法来检测模型变化，从而获得长期折现奖励。

Apr, 2023