分布式分布式确定性策略梯度

Apr, 2018

Distributed Distributional Deterministic Policy Gradients

Gabriel Barth-Maron, Matthew W. Hoffman, David Budden, Will Dabney, Dan Horgan...

TL;DR本研究采用分布式角度的强化学习来适用于连续控制环境，提出了分布式分布式深度确定策略梯度算法 D4PG，结合了 N 步回报和优先经验回放等简单改进。实验结果表明，在各种控制任务、难以操作的任务和一组基于障碍的定位任务中，D4PG 算法均实现了最先进的性能。

Abstract

This work adopts the very successful distributional perspective on reinforcement learning and adapts it to the continuous control setting. We combine this within a distributed framework for off-policy learning in

reinforcement learning continuous control distributed distributional deep deterministic policy gradient algorithm n-step returns prioritized experience replay

发现论文，激发创造

异步情节式深化确定性策略梯度法：面向计算复杂环境的连续控制

本文提出了一种扩展 Deep Deterministic Policy Gradient (DDPG) 的算法 Asynchronous Episodic DDPG (AE-DDPG)，通过异步学习和组合应用周期控制和动态噪声等技术，该算法在连续控制任务中取得更好的结果，具有更高的奖励和更高的数据利用效率。

Mar, 2019

连续控制增强学习：分布分布式 DrQ 算法

Distributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该算法在各种连续控制任务中取得了出色的性能。

Apr, 2024

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

3DPG: 网络化多智能体系统的分布式深度确定性策略梯度算法

本论文提出了一种基于分布式深度学习的多智能体 Actor-Critic 学习算法，应用于 Markov 博弈，能够在训练和部署中实现完全分布式，具有一定的实用价值。

Jan, 2022

数据高效的灵巧操作深度强化学习

本研究使用深度学习和强化学习方法解决机器人的熟练操作任务，同样使用了 DDPG 算法来扩展其功能以实现更高效的数据利用与可伸缩性，成功地使用现实世界的抓取和叠放机器人的交互数据训练出其掌握复杂熟练操作技能的有效策略模型。

Apr, 2017

基于目标分布学习的连续控制策略搜索

本研究提出了新的强化学习方法 —— 目标分布学习 (TDL)，通过交替提出目标分布和训练策略网络来解决现有策略梯度方法可能出现过大梯度和训练不稳定的问题，实验发现这种方法能得到类似或更好的结果，并且更加稳定。

May, 2019

分布式策略优化：连续控制的另一种方法

研究提供了一种新的基于分布框架的生成式策略梯度算法 (GAC) 来解决现有的策略梯度方法由于限制策略表示为参数分布类而导致的局部移动及收敛到亚最优解的问题。该方法不需要知道分布函数，可以有效处理连续控制问题。实验结果显示 GAC 方法优于当前最先进的基线方法。

May, 2019

基于策略梯度的可扩展集中化深度多智体强化学习

探索使用强化学习解决多智能体问题，将多智能体强化学习问题视为分布式优化问题处理，假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替，结果表明该算法在协作和竞争任务上比现有方法更加有效。

May, 2018

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

集成深度强化学习与动态规划的自主编队控制

本文提出了一种基于深度增强学习和动态规划的算法 Finite-Horizon-DDPG-SS，用于解决车队中车辆跟随控制问题，通过真实驾驶数据的仿真验证了该算法的有效性，并且能够提高车队的安全性和稳定性。

Jun, 2022