增长型 Q 网络：用自适应控制分辨率解决连续控制任务

Apr, 2024

增长型 Q 网络：用自适应控制分辨率解决连续控制任务

Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution

Tim Seyde, Peter Werner, Wilko Schwarting, Markus Wulfmeier, Daniela Rus

TL;DR近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力，通过粗糙的动作空间离散化实现了有利的探索特性，而在没有动作惩罚的情况下，最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长，结合解耦的 Q 学习最新成果，将我们的方法扩展到高维动作空间，最多达到 dim (A) = 38。我们的研究表明，自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法，在连续控制任务上表现出令人惊讶的强大性能。

Abstract

Recent reinforcement learning approaches have shown surprisingly strong capabilities of bang-bang policies for solving continuous control benchma

reinforcement learning continuous control benchmarks bang-bang policies coarse to fine control resolution value decomposition

发现论文，激发创造

通过 Q 学习解决连续控制问题

本文提出了一种将单智能体控制转化为多智能体协作学习的方法 —— 将动作离散化并结合价值分解，从而将 Q-learning 方法应用于高维连续动作空间的情况，能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌，并在多种连续控制任务中表现出强大的性能。

Oct, 2022

基于价值限制的无模型连续控制

提出了一种基于 Lagrangian relaxation 的约束强化学习方法，通过同时优化任务奖励和某些辅助成本来确保任务成功，展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上，该方法的有效性。

Feb, 2019

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

深度强化学习中连续动作的离散顺序预测

本文提出了一种使用神经网络模型对连续动作空间离散化建模的方法，通过预测单个维度的方法对高维空间进行建模，实现了有效解决高维连续控制问题的技术，其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。

May, 2017

如何在 Q 学习中对连续状态 - 动作空间进行离散化：一种符号控制方法

基于符号模型的新型 Q 学习方法通过分析连续状态 - 动作空间的挑战，并利用符号模型表示行为关系，提出了一种解决方案，该方案能够获得编码最优策略的两个 Q 表，并探讨了空间抽象参数与 Q 值损失之间的相关性，并通过两个案例研究展示了该方法的工程应用价值。

Jun, 2024

深度强化学习在连续控制中的基准测试

研究人员结合深度学习和强化学习在连续控制领域缺失常用基准问题下设计并发布了一套基准问题和参考实现，经过系统评估发现一系列新的结果。

Apr, 2016

来自演示的动作量化连续控制

本文提出了一种基于 RL 的新方法 AQuaDem，可从人类演示中学习连续动作空间的离散化，以实现在连续控制问题上的离散动作深度 RL 技术应用，并通过实验证明了优于 SAC 和 GAIL 的性能。

Oct, 2021

粗到细的 Q-attention：通过离散化实现视觉机器人操作的高效学习

使用粗到细的离散化方法，取代不稳定，并且数据效率低的连续机器人学中的角色扮演者 - 评论者方法，实现离散增强学习应用。该方法利用最近推出的 ARM 算法，将连续的下一个最佳姿态代理替换为离散的，采用粗到细的 Q-attention 方法，学习何时对场景的哪一部分进行缩放，实现对平移空间的近乎无损区分，并允许使用离散行动及深度 Q - 学习方法。实验表明，这种新的粗到细算法在几个困难的基于视觉的机器人任务上实现了最先进的性能，并且可以在几分钟内训练出现实世界的政策。

Jun, 2021

机器人倒立摆平衡的连续控制问题的 Q 学习方法

该研究评估了一种离散动作空间强化学习方法（Q-learning）在机器人倒立摆平衡的连续控制问题中的应用。为了加快学习过程并克服直接在真实机器人系统上进行学习的技术困难，学习阶段在模拟环境中进行。通过对从真实系统获取的数据进行曲线拟合来推导系统动力学的数学模型。该研究验证了该方法的可行性，应用于一个真实世界的机器人学习平衡倒立摆。该研究还强调并证明了在模拟中准确表示物理世界对于实现强化学习算法在真实环境中更有效的重要性，即使使用离散动作空间算法来控制连续动作。

Dec, 2023

深度强化学习中的动作分支体系结构

本文提出了一种新的神经网络架构，其中包括一个共享的决策模块和几个网络分支，通过允许每个单独的动作维度的独立性，实现网络输出数量与自由度数量的线性增加。通过提出的代理使用比 Deep Deterministic Policy Gradient 算法更适用于具有不断增长的动作自由度的环境的性能和有效性证明了该方法的可扩展性和可行性。

Nov, 2017