深度多智能体强化学习与混合动作空间的进一步探索

Aug, 2022

深度多智能体强化学习与混合动作空间的进一步探索

A further exploration of deep Multi-Agent Reinforcement Learning with Hybrid Action Space

Hongzhi Hua, Guixuan Wen, Kaigui Wu

TL;DR本研究提出了两个基于集中式训练、分散式执行范式的深度多智能体软策略优化算法以解决混合行动空间问题，并在基本物理模拟和易于实现的多智能体环境下进行了实验验证并取得了良好的表现。

Abstract

The research of extending deep reinforcement learning (drl) to multi-agent field has solved many complicated problems and made great achievements. However, almost all these studies only focus on discrete or conti

deep reinforcement learning multi-agent hybrid action space soft actor-critic deep deterministic policy gradients

发现论文，激发创造

基于最大熵的深度多智能体强化学习与混合动作空间

提出了一种基于最大熵的深度多智能体混合软演员评论家算法（MAHSAC），该算法通过中心化训练但分散执行的范例来处理多智能体环境中的混合行动空间问题，在连续观察和离散行动空间的多智能体粒子世界中运行实验，结果表明 MAHSAC 在培训速度、稳定性和抗干扰能力方面表现良好，并且在合作场景和竞争场景中胜过现有的独立深度混合学习方法。

Jun, 2022

具有离散 - 连续混合动作空间的深度多智体强化学习

本篇论文针对协同多智能体问题中的 “离散 - 连续混合动作空间” 这一实际难题，提出了两个新算法：Deep Multi-Agent Parameterized Q-Networks（Deep MAPQN）和 Deep Multi-Agent Hierarchical Hybrid Q-Networks（Deep MAHHQN）。中心化训练，分散执行范例下的实证结果显示，Deep MAPQN 和 Deep MAHHQN 均更为有效，且远胜于现有独立深度参数化 Q 学习方法。

Mar, 2019

连续动作空间下的多智能体系统安全强化学习

本文介绍了在深度强化学习模型中添加安全层以确保多智能体控制问题的安全性的方法，该方法采用线性化单步转换动态的思想，并使用软约束解决了实施步骤中的不可行性问题，在保证软约束的约束满足性的基础上实现了学习过程中的安全控制。

Aug, 2021

参数化深度 Q-Networks 学习：离散 - 连续混合动作空间增强学习

在本文中，我们提出了一种带参数的深度 Q 网络（P-DQN）框架，用于处理混合行动空间，此算法无需任何逼近或者弛豫，充分发挥 DQN 和 DDPG 精神，并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。

Oct, 2018

多智能体系统的深度强化学习：挑战、解决方案和应用综述

此篇论文介绍了多智能体深度强化学习的不同方法，包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习，并分析和讨论了这些方法的优缺点及其相关应用，旨在促进更加健壮和高效的多智能体学习方法的发展。

Dec, 2018

参数化动作空间中的混合演员 - 评论家强化学习

介绍了一种混合体结构的深度强化学习算法，其包含多个并行的子演员网络和一个评论家网络，可以将结构化的行动空间分解为更简单的行动空间，并指导所有子演员网络的训练。该算法在参数化行动空间中展示了出色的表现。

Mar, 2019

相对熵正则化的有效多智能体深度强化学习控制

本文提出了一种新颖的多智能体强化学习方法，即多智能体连续动态策略梯度（MACDPP），用于解决多智能体控制的各种场景中的能力有限性和样本效率的问题。通过在中央化训练与分散执行的框架中引入相对熵正则化以及参与者 - 判别者结构，缓解了多个智能体策略更新的不一致性。通过多智能体协作和竞争任务以及传统控制任务，包括 OpenAI 基准和机械臂操纵，评估了 MACDPP 在学习能力和样本效率方面相对于相关的多智能体和广泛实施的信号 - 智能体基准的显著优越性，从而扩展了多智能体强化学习在有效学习具有挑战性的控制场景中的潜力。

Sep, 2023

多智能体深度强化学习（MADRL）遇见多用户 MIMO 系统

本文提出了一种 MADRL 的方法，即采用 MA-DDPG 框架，在有多个决策制定者并且这些决策制定者只能观测到部分环境信息，且存在多维度动作空间的情况下，在多输入单输出干扰信道系统中联合优化预编码器，来实现可实现速率区域的边界，同时提出了一种解决相位歧义问题的训练方法（PAE），模拟结果表明这种方法在 MISO IFC 系统中可以学习到近乎最优的预编码策略，并且这是第一篇在多个蜂窝、多用户、多天线系统中证明 MA-DDPG 框架可以联合优化预编码器以达到可实现速率区域的边界的研究。

Sep, 2021

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020