参数化动作空间中的混合演员 - 评论家强化学习

Mar, 2019

参数化动作空间中的混合演员 - 评论家强化学习

Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space

Zhou Fan, Rui Su, Weinan Zhang, Yong Yu

TL;DR介绍了一种混合体结构的深度强化学习算法，其包含多个并行的子演员网络和一个评论家网络，可以将结构化的行动空间分解为更简单的行动空间，并指导所有子演员网络的训练。该算法在参数化行动空间中展示了出色的表现。

Abstract

In this paper we propose a hybrid architecture of actor-critic algorithms for reinforcement learning in →

hybrid architecture actor-critic algorithms reinforcement learning parameterized action space proximal policy optimization

发现论文，激发创造

参数化动作空间中强化学习的分层方法

本文提出了一种用于在参数化操作空间中进行强化学习的新型紧凑架构，并探讨了如何使用现有算法（TRPO, SVG）进行训练，结果表明这些方法在测试时优于当前最先进的方法 Parameterized Action DDPG。

Oct, 2018

深度多智能体强化学习与混合动作空间的进一步探索

本研究提出了两个基于集中式训练、分散式执行范式的深度多智能体软策略优化算法以解决混合行动空间问题，并在基本物理模拟和易于实现的多智能体环境下进行了实验验证并取得了良好的表现。

Aug, 2022

参数化深度 Q-Networks 学习：离散 - 连续混合动作空间增强学习

在本文中，我们提出了一种带参数的深度 Q 网络（P-DQN）框架，用于处理混合行动空间，此算法无需任何逼近或者弛豫，充分发挥 DQN 和 DDPG 精神，并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。

Oct, 2018

基于最大熵的深度多智能体强化学习与混合动作空间

提出了一种基于最大熵的深度多智能体混合软演员评论家算法（MAHSAC），该算法通过中心化训练但分散执行的范例来处理多智能体环境中的混合行动空间问题，在连续观察和离散行动空间的多智能体粒子世界中运行实验，结果表明 MAHSAC 在培训速度、稳定性和抗干扰能力方面表现良好，并且在合作场景和竞争场景中胜过现有的独立深度混合学习方法。

Jun, 2022

具有离散 - 连续混合动作空间的深度多智体强化学习

本篇论文针对协同多智能体问题中的 “离散 - 连续混合动作空间” 这一实际难题，提出了两个新算法：Deep Multi-Agent Parameterized Q-Networks（Deep MAPQN）和 Deep Multi-Agent Hierarchical Hybrid Q-Networks（Deep MAHHQN）。中心化训练，分散执行范例下的实证结果显示，Deep MAPQN 和 Deep MAHHQN 均更为有效，且远胜于现有独立深度参数化 Q 学习方法。

Mar, 2019

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

参数化动作空间的多次通过 Q 网络用于深度强化学习

提出了一种名为 MP-DQN 的新方法来解决重要的问题，有效地解决了 P-DQN 在动作空间中处理所有动作参数的局限性，从而在增加数据效率方面得到显着改善，并在平台、机器人足球目标和半场进攻等领域取得了收敛策略表现显著优于 P-DQN 和其他传统算法。

May, 2019

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

未知环境映射的异构多智能体强化学习

本文提出了一种基于 actor-critic 算法的多智能体学习方法，可以让一组异构代理学习无人机覆盖未知环境的分散控制策略，此方法可被应用于国家安全和紧急响应组织中以提高在危险区域中的情境感知能力。

Oct, 2020

通过参数化行为基元加速机器人强化学习

本研究探讨了使用机器人行动原语以改善强化学习代理的难度探索和性能，并提出了一种新的界面设计，将学习参数化行动原语的 RL 策略与机器人的交互结合起来，最终在三个不同的领域、图像输入和稀疏终端奖励下，显著提高了学习效率和任务性能。

Oct, 2021