连续控制增强学习：分布分布式 DrQ 算法

Apr, 2024

连续控制增强学习：分布分布式 DrQ 算法

Continuous Control Reinforcement Learning: Distributed Distributional DrQ Algorithms

Zehao Zhou

TL;DRDistributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该算法在各种连续控制任务中取得了出色的性能。

Abstract

distributed distributional drq is a model-free and off-policy rl algorithm for continuous control tasks based on the state and observation

distributed distributional drq rl algorithm continuous control tasks actor-critic method distributional value function

发现论文，激发创造

掌握视觉连续控制：改进的数据增强强化学习

DrQ-v2 是一个模型无关的强化学习算法，基于 off-policy actor-critic 方法和数据增强，可从像素直接学习并在 DeepMind Control Suite 中实现了复杂的人形运动任务，提供了强大且计算效率高的基线实现。

Jul, 2021

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

单轨迹鲁棒分布式强化学习

提出了分布式鲁棒 Q 学习及其平均奖励变体，且在单轨迹训练的基础上，给出了渐近收敛保证和实验验证，证明其在扰动环境下的优越性。

Jan, 2023

基于正态分布引导的连续控制分布式强化学习

通过使用马尔可夫链中心极限定理，以近似正态分布的形式建模价值分布，分析计算分位数，提出一种基于价值分布的不确定性的策略更新方法，并在 PPO 和 TRPO 算法上进行连续控制任务测试，显示出性能改进。

Aug, 2022

分布式分布式确定性策略梯度

本研究采用分布式角度的强化学习来适用于连续控制环境，提出了分布式分布式深度确定策略梯度算法 D4PG，结合了 N 步回报和优先经验回放等简单改进。实验结果表明，在各种控制任务、难以操作的任务和一组基于障碍的定位任务中，D4PG 算法均实现了最先进的性能。

Apr, 2018

CTD4 - 深度连续分布式算法与卡尔曼多评判员融合的演员 - 评论家代理

本文介绍了一种基于连续动作空间的连续分布式无模型强化学习算法，通过引入多个融合的评论家和 Kalman 融合机制来简化实现分布式强化学习，并验证了其在执行复杂的连续控制任务中具有易于训练和高样本效率的解决方案。

May, 2024

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

基于核的分布式 Q-Learning：一种针对动态治疗方案的可扩展强化学习方法

本篇论文提出了一种新的分布式 Q-learning 算法，用于生成动态治疗规则 (DTRs)。该算法可有效地处理大量的电子病历数据，并在临床癌症治疗方面表现出比传统算法更好的预测精度和计算成本。

Feb, 2023

一步分布式强化学习

本文提出了简化的单步分布式强化学习框架（OS-DistrRL），包括环境单步动态引入的随机性。我们证明了提出的框架可以在策略评估和控制方面提供统一的理论，为此我们提出了两种算法，并且进行了几乎肯定的收敛性分析。该方法在各种环境下与分类 DistrRL 进行比较，表现出优越性。

Apr, 2023

$QD$-Learning: 一种多智能体强化学习的合作式分布式策略，通过共识 + 创新实现

该论文研究了一类多智能体马尔可夫决策过程，在其中，网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前，论文探讨了一种分布式强化学习设置，并提出了一种分布式版本的 Q-learning 方法来实现网络目标。通过稀疏（可能随机）通信网络上的局部处理和信息交流，实现了代理协作。在只知道其本地在线成本数据和代理之间的弱连接通信网络的假设下，提出的分布式方案在几乎确定的情况下被证明会渐进性地实现各个网络层面上的期望值函数和最优静止控制策略。所开发的分析技术可用于处理交互分布式方案导致的混合时间尺度随机动态的 “共识 + 创新” 形式，这些技术对独立的利益具有重要意义。

Apr, 2012