基于最大熵的深度多智能体强化学习与混合动作空间

Jun, 2022

基于最大熵的深度多智能体强化学习与混合动作空间

Deep Multi-Agent Reinforcement Learning with Hybrid Action Spaces based on Maximum Entropy

Hongzhi Hua, Kaigui Wu, Guixuan Wen

TL;DR提出了一种基于最大熵的深度多智能体混合软演员评论家算法（MAHSAC），该算法通过中心化训练但分散执行的范例来处理多智能体环境中的混合行动空间问题，在连续观察和离散行动空间的多智能体粒子世界中运行实验，结果表明 MAHSAC 在培训速度、稳定性和抗干扰能力方面表现良好，并且在合作场景和竞争场景中胜过现有的独立深度混合学习方法。

Abstract

multi-agent deep reinforcement learning has been applied to address a variety of complex problems with either discrete or continuous action spaces and achieved great success. However, most real-world environments

multi-agent deep reinforcement learning hybrid action space soft actor-critic maxium entropy

发现论文，激发创造

深度多智能体强化学习与混合动作空间的进一步探索

本研究提出了两个基于集中式训练、分散式执行范式的深度多智能体软策略优化算法以解决混合行动空间问题，并在基本物理模拟和易于实现的多智能体环境下进行了实验验证并取得了良好的表现。

Aug, 2022

具有离散 - 连续混合动作空间的深度多智体强化学习

本篇论文针对协同多智能体问题中的 “离散 - 连续混合动作空间” 这一实际难题，提出了两个新算法：Deep Multi-Agent Parameterized Q-Networks（Deep MAPQN）和 Deep Multi-Agent Hierarchical Hybrid Q-Networks（Deep MAHHQN）。中心化训练，分散执行范例下的实证结果显示，Deep MAPQN 和 Deep MAHHQN 均更为有效，且远胜于现有独立深度参数化 Q 学习方法。

Mar, 2019

分解 Soft Actor-Critic 方法用于合作多智体强化学习

本文提出了一种新的分解式多智能体软演员 - 批评家（mSAC）方法，在 StarCraft II 微观管理合作式多智能体基准测试中获得高效和优异的性能。

Apr, 2021

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

DSAC-C: 基于约束的最大熵算法用于鲁棒离散软演员评论家

我们提出了一种新颖的 Soft Actor-Critic（SAC）算法扩展。基于最大熵原理，我们认为通过从替代性评论策略中得出的附加统计约束，可以进一步改进离散 SAC 算法。此外，我们的研究结果表明，这些约束对于潜在领域转移提供了额外的稳健性，这对于在现实世界中安全部署强化学习代理至关重要。我们提供了理论分析并展示了对 Atari 2600 游戏的分布内和分布外低数据范例的实证结果。

Oct, 2023

连续动作空间下的多智能体系统安全强化学习

本文介绍了在深度强化学习模型中添加安全层以确保多智能体控制问题的安全性的方法，该方法采用线性化单步转换动态的思想，并使用软约束解决了实施步骤中的不可行性问题，在保证软约束的约束满足性的基础上实现了学习过程中的安全控制。

Aug, 2021

相对熵正则化的有效多智能体深度强化学习控制

本文提出了一种新颖的多智能体强化学习方法，即多智能体连续动态策略梯度（MACDPP），用于解决多智能体控制的各种场景中的能力有限性和样本效率的问题。通过在中央化训练与分散执行的框架中引入相对熵正则化以及参与者 - 判别者结构，缓解了多个智能体策略更新的不一致性。通过多智能体协作和竞争任务以及传统控制任务，包括 OpenAI 基准和机械臂操纵，评估了 MACDPP 在学习能力和样本效率方面相对于相关的多智能体和广泛实施的信号 - 智能体基准的显著优越性，从而扩展了多智能体强化学习在有效学习具有挑战性的控制场景中的潜力。

Sep, 2023

参数化动作空间中的混合演员 - 评论家强化学习

介绍了一种混合体结构的深度强化学习算法，其包含多个并行的子演员网络和一个评论家网络，可以将结构化的行动空间分解为更简单的行动空间，并指导所有子演员网络的训练。该算法在参数化行动空间中展示了出色的表现。

Mar, 2019

最大熵异质代理镜像学习

本文提出了一种新的理论框架 MEHAML，利用最大熵原理设计最大熵 MARL Actor-Critic 算法，证明了所得算法具有联合最大熵目标的单调改进和收敛到量子响应平衡（QRE）的所需属性，实验结果表明，在三个基准测试中，HASAC（软 Actor-Critic）的性能超越了 HATD3、HAPPO、QMIX 和 MAPPO 等强基线方法，成为了新的最优方法。

Jun, 2023

未知环境映射的异构多智能体强化学习

本文提出了一种基于 actor-critic 算法的多智能体学习方法，可以让一组异构代理学习无人机覆盖未知环境的分散控制策略，此方法可被应用于国家安全和紧急响应组织中以提高在危险区域中的情境感知能力。

Oct, 2020