具有离散 - 连续混合动作空间的深度多智体强化学习

Mar, 2019

具有离散 - 连续混合动作空间的深度多智体强化学习

Deep Multi-Agent Reinforcement Learning with Discrete-Continuous Hybrid Action Spaces

Haotian Fu, Hongyao Tang, Jianye Hao, Zihan Lei, Yingfeng Chen...

TL;DR本篇论文针对协同多智能体问题中的 “离散 - 连续混合动作空间” 这一实际难题，提出了两个新算法：Deep Multi-Agent Parameterized Q-Networks（Deep MAPQN）和 Deep Multi-Agent Hierarchical Hybrid Q-Networks（Deep MAHHQN）。中心化训练，分散执行范例下的实证结果显示，Deep MAPQN 和 Deep MAHHQN 均更为有效，且远胜于现有独立深度参数化 Q 学习方法。

Abstract

deep reinforcement learning (DRL) has been applied to address a variety of cooperative multi-agent problems with either discrete action spaces or continuous action spaces. However, to the best of our knowledge, n

deep reinforcement learning multi-agent problems discrete-continuous hybrid action spaces deep mapqn deep mahhqn

发现论文，激发创造

参数化深度 Q-Networks 学习：离散 - 连续混合动作空间增强学习

在本文中，我们提出了一种带参数的深度 Q 网络（P-DQN）框架，用于处理混合行动空间，此算法无需任何逼近或者弛豫，充分发挥 DQN 和 DDPG 精神，并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。

Oct, 2018

深度多智能体强化学习与混合动作空间的进一步探索

本研究提出了两个基于集中式训练、分散式执行范式的深度多智能体软策略优化算法以解决混合行动空间问题，并在基本物理模拟和易于实现的多智能体环境下进行了实验验证并取得了良好的表现。

Aug, 2022

参数化动作空间的多次通过 Q 网络用于深度强化学习

提出了一种名为 MP-DQN 的新方法来解决重要的问题，有效地解决了 P-DQN 在动作空间中处理所有动作参数的局限性，从而在增加数据效率方面得到显着改善，并在平台、机器人足球目标和半场进攻等领域取得了收敛策略表现显著优于 P-DQN 和其他传统算法。

May, 2019

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

基于最大熵的深度多智能体强化学习与混合动作空间

提出了一种基于最大熵的深度多智能体混合软演员评论家算法（MAHSAC），该算法通过中心化训练但分散执行的范例来处理多智能体环境中的混合行动空间问题，在连续观察和离散行动空间的多智能体粒子世界中运行实验，结果表明 MAHSAC 在培训速度、稳定性和抗干扰能力方面表现良好，并且在合作场景和竞争场景中胜过现有的独立深度混合学习方法。

Jun, 2022

通过混合动作表示解决离散 - 连续动作强化学习的问题

该研究提出了 HyAR，即混合动作表示，通过构建包含离散动作和连续参数的混合动作空间的紧凑的、可解码的潜在表示空间并利用无监督环境动态预测来训练这一表示，在传统的深度强化学习算法中实现策略的学习。实验表明，HyAR 在高维混合动作空间方面表现出优异的性能。

Sep, 2021

MAN: 多动作网络学习

我们提出了一种新的 DRL 算法 Multi-Action Networks Learning 来解决高维度大离散行动空间的问题，并实验验证得出，MAN 比当前用于大离散行动空间的异步时间差分算法更快地学习策略。

Sep, 2022

多智能体系统的深度强化学习：挑战、解决方案和应用综述

此篇论文介绍了多智能体深度强化学习的不同方法，包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习，并分析和讨论了这些方法的优缺点及其相关应用，旨在促进更加健壮和高效的多智能体学习方法的发展。

Dec, 2018

参数化行动下的强化学习

介绍了一种无模型算法，用于在具有参数化动作的马尔可夫决策过程中学习 - 离散动作具有连续参数。提出了用于在这些领域中学习的 Q-PAMDP 算法，并将其与 Platform 和 Goal-scoring 领域中的直接政策搜索进行比较。

Sep, 2015

关于提高 POMDP 上深度强化学习的方法

提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构，该体系结构使用 LSTM 层来学习潜在状态，以增强在多个部分可观察领域的学习性能，包括 Atari 游戏。

Apr, 2018