深度强化学习中连续动作的离散顺序预测

May, 2017

深度强化学习中连续动作的离散顺序预测

Discrete Sequential Prediction of Continuous Actions for Deep RL

Luke Metz, Julian Ibarz, Navdeep Jaitly, James Davidson

TL;DR本文提出了一种使用神经网络模型对连续动作空间离散化建模的方法，通过预测单个维度的方法对高维空间进行建模，实现了有效解决高维连续控制问题的技术，其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。

Abstract

It has long been assumed that high dimensional continuous control problems cannot be solved effectively by discretizing individual dimensions of the action space due to the exponentially large number of bins over which policies would have to be learned. In this paper, we draw inspirati

continuous control problems neural networks discretization off-policy methods q-learning

发现论文，激发创造

离散化连续动作空间的策略优化

本文研究了对连续控制中动作空间的离散化对于基于策略优化的影响，发现动作空间的离散化采用可分解动作分布的策略可以有效地解决离散动作数量的爆炸性增长，并且在复杂动态高维任务上可以通过在策略中使用序数参数化引入自然排序从而获得性能显著提升的优越表现。

Jan, 2019

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

增长型 Q 网络：用自适应控制分辨率解决连续控制任务

近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力，通过粗糙的动作空间离散化实现了有利的探索特性，而在没有动作惩罚的情况下，最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长，结合解耦的 Q 学习最新成果，将我们的方法扩展到高维动作空间，最多达到 dim (A) = 38。我们的研究表明，自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法，在连续控制任务上表现出令人惊讶的强大性能。

Apr, 2024

参数化深度 Q-Networks 学习：离散 - 连续混合动作空间增强学习

在本文中，我们提出了一种带参数的深度 Q 网络（P-DQN）框架，用于处理混合行动空间，此算法无需任何逼近或者弛豫，充分发挥 DQN 和 DDPG 精神，并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。

Oct, 2018

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

基于模型的离散和连续行动规划

本文介绍了一种使用前向模型的行动计划方法，在离散动作空间中通过反向传播实现规划，使用参数化的动作向量和输入噪声，同时使用策略蒸馏方法，性能优于模型自由 RL 和离散计划方法，可以应用于离散和连续动作空间的模型控制任务。

May, 2017

如何在 Q 学习中对连续状态 - 动作空间进行离散化：一种符号控制方法

基于符号模型的新型 Q 学习方法通过分析连续状态 - 动作空间的挑战，并利用符号模型表示行为关系，提出了一种解决方案，该方案能够获得编码最优策略的两个 Q 表，并探讨了空间抽象参数与 Q 值损失之间的相关性，并通过两个案例研究展示了该方法的工程应用价值。

Jun, 2024

策略预测网络：在连续动作空间中，基于模型学习的无模型行为策略

本文提出了一种具有离散动作空间的树形结构之前所未有的强化学习方法， Policy Prediction Network，该方法结合了模型自由与模型驱动强化学习，采用了经验证实的裁剪方法，实现了对连续动作空间的模型驱动学习并使其能够更好地适应 MuJoCo 环境等连续控制问题。

Sep, 2019

度量空间中的情节式强化学习自适应离散化

提出了一种基于自适应数据驱动离散化的 $Q$- 学习策略的高效算法，可以用于大型（可能是连续的）状态 - 动作空间的无模型经验强化学习。

Oct, 2019