深度强化学习的连续控制

Sep, 2015

Continuous control with deep reinforcement learning

Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez...

TL;DR本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Abstract

We adapt the ideas underlying the success of deep q-learning to the continuous action domain. We present an actor-critic, model-free algorithm

deep q-learning actor-critic model-free algorithm continuous action spaces raw pixel inputs

发现论文，激发创造

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

深度强化学习在连续控制中的基准测试

研究人员结合深度学习和强化学习在连续控制领域缺失常用基准问题下设计并发布了一套基准问题和参考实现，经过系统评估发现一系列新的结果。

Apr, 2016

增长型 Q 网络：用自适应控制分辨率解决连续控制任务

近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力，通过粗糙的动作空间离散化实现了有利的探索特性，而在没有动作惩罚的情况下，最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长，结合解耦的 Q 学习最新成果，将我们的方法扩展到高维动作空间，最多达到 dim (A) = 38。我们的研究表明，自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法，在连续控制任务上表现出令人惊讶的强大性能。

Apr, 2024

数据高效的灵巧操作深度强化学习

本研究使用深度学习和强化学习方法解决机器人的熟练操作任务，同样使用了 DDPG 算法来扩展其功能以实现更高效的数据利用与可伸缩性，成功地使用现实世界的抓取和叠放机器人的交互数据训练出其掌握复杂熟练操作技能的有效策略模型。

Apr, 2017

深度强化学习中连续动作的离散顺序预测

本文提出了一种使用神经网络模型对连续动作空间离散化建模的方法，通过预测单个维度的方法对高维空间进行建模，实现了有效解决高维连续控制问题的技术，其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。

May, 2017

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

通过 Q 学习解决连续控制问题

本文提出了一种将单智能体控制转化为多智能体协作学习的方法 —— 将动作离散化并结合价值分解，从而将 Q-learning 方法应用于高维连续动作空间的情况，能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌，并在多种连续控制任务中表现出强大的性能。

Oct, 2022

基于模型的持续深度 Q 学习加速

本研究探讨了算法和表示方法，以降低针对连续控制任务的深度强化学习的样本复杂度，并提出了两种互补的技术来提高这种算法的效率，包括导出连续 Q 学习算法的归一化优势函数以及使用学习的模型来加速无模型强化学习，并在一组模拟机器人控制任务中表现出明显的改进。

Mar, 2016

自主驾驶的深度强化学习

本研究旨在利用深度确定性策略梯度算法来应对自主驾驶中复杂的状态和行动空间，我们选择 The Open Racing Car Simulator (TORCS) 来模拟实验环境，并选择适宜的传感器信息设计奖励机制并建立 DPPG 模型，实验结果表明模型在多种场景下均取得了良好的效果。

Nov, 2018

在 MuJoCo 环境中探索离散和连续控制任务的强化学习技术

利用快速物理模拟器 MuJoCo 在连续控制环境中运行任务，通过离散化方法比较 Q 学习和 SARSA 作为基准，逐步转向最先进的深度策略梯度方法 DDPG。在大量的回合中，Q 学习的得分超过了 SARSA，但在少数回合中，DDPG 表现更好。最后，通过微调模型超参数以期望在更少的时间和资源消耗上获得更好的性能。我们预期 DDPG 的新设计将大幅提高性能，但仅仅几个回合后，我们就能够达到相当不错的平均奖励。我们期望在充足的时间和计算资源下进一步提升性能。

Jul, 2023