通过 Q 学习解决连续控制问题

Oct, 2022

Solving Continuous Control via Q-learning

Tim Seyde, Peter Werner, Wilko Schwarting, Igor Gilitschenski, Martin Riedmiller...

TL;DR本文提出了一种将单智能体控制转化为多智能体协作学习的方法 —— 将动作离散化并结合价值分解，从而将 Q-learning 方法应用于高维连续动作空间的情况，能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌，并在多种连续控制任务中表现出强大的性能。

Abstract

While there has been substantial success in applying actor-critic methods to continuous control, simpler critic-only methods such as q-learning

actor-critic q-learning value decomposition cooperative multi-agent reinforcement learning continuous control

发现论文，激发创造

增长型 Q 网络：用自适应控制分辨率解决连续控制任务

近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力，通过粗糙的动作空间离散化实现了有利的探索特性，而在没有动作惩罚的情况下，最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长，结合解耦的 Q 学习最新成果，将我们的方法扩展到高维动作空间，最多达到 dim (A) = 38。我们的研究表明，自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法，在连续控制任务上表现出令人惊讶的强大性能。

Apr, 2024

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

混合 Q- 函数：用于连续动作领域的合作 MARL 中推进基于价值的方法

本文提出了一种新的多智能体价值算法，混合 Q - 函数（MQF），通过同时评估多种动作，改善了多智能体连续领域中基于价值的方法，促进了智能体之间的合作，并在六个合作多智能体场景中实证发现 MQF 通过快速动作评估和增加样本效率优于四个变种的深度确定性策略梯度算法。

Feb, 2024

如何在 Q 学习中对连续状态 - 动作空间进行离散化：一种符号控制方法

基于符号模型的新型 Q 学习方法通过分析连续状态 - 动作空间的挑战，并利用符号模型表示行为关系，提出了一种解决方案，该方案能够获得编码最优策略的两个 Q 表，并探讨了空间抽象参数与 Q 值损失之间的相关性，并通过两个案例研究展示了该方法的工程应用价值。

Jun, 2024

量子优势演员 - 评论家强化学习

本研究提出一种新颖的量子强化学习方法，将优势演员 - 评论家算法与变分量子电路结合，通过替代部分经典组件解决了强化学习可扩展性方面的问题，同时保持了较高性能。通过实证测试多种量子优势演员 - 评论家配置与知名的倒立摆环境，我们的结果表明，使用量子演员或量子评论家与经典后处理的混合策略相比具有类似参数数量的纯经典或纯量子变体，可以显著提高性能。结果进一步揭示了当前量子方法的局限性，指出了嘈杂中尺度量子计算机硬件约束的进一步研究，以扩展更大更复杂的控制任务的混合方法。

Jan, 2024

软分解策略评论者：弥合连续控制与离散 RL 的差距

这篇论文介绍了 SDPC 架构，它将软强化学习和演员 - 评论家技术与离散强化学习方法相结合，以克服连续控制问题的挑战，实现了在多个连续控制任务中优于当前最先进的方法的表现。

Aug, 2023

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

深度强化学习中连续动作的离散顺序预测

本文提出了一种使用神经网络模型对连续动作空间离散化建模的方法，通过预测单个维度的方法对高维空间进行建模，实现了有效解决高维连续控制问题的技术，其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。

May, 2017

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

CAQL: 连续动作 Q 学习

本研究基于价值强化学习中的连续动作 Q-learning，提出了一个 CAQL 算法，利用混合整数规划来实现最大化问题优化，该方法相对于近似方法具有更好地鲁棒性和推广性，同时在研究中表现优于基于策略的方法。

Sep, 2019