相对熵正则化的有效多智能体深度强化学习控制

Sep, 2023

相对熵正则化的有效多智能体深度强化学习控制

Effective Multi-Agent Deep Reinforcement Learning Control with Relative Entropy Regularization

Chenyang Miao, Yunduan Cui, Huiyun Li, Xinyu Wu

TL;DR本文提出了一种新颖的多智能体强化学习方法，即多智能体连续动态策略梯度（MACDPP），用于解决多智能体控制的各种场景中的能力有限性和样本效率的问题。通过在中央化训练与分散执行的框架中引入相对熵正则化以及参与者 - 判别者结构，缓解了多个智能体策略更新的不一致性。通过多智能体协作和竞争任务以及传统控制任务，包括 OpenAI 基准和机械臂操纵，评估了 MACDPP 在学习能力和样本效率方面相对于相关的多智能体和广泛实施的信号 - 智能体基准的显著优越性，从而扩展了多智能体强化学习在有效学习具有挑战性的控制场景中的潜力。

Abstract

In this paper, a novel multi-agent reinforcement learning (MARL) approach, multi-agent continuous dynamic policy gradient (MACDPP) was proposed to tackle the issues of →

multi-agent reinforcement learning multi-agent continuous dynamic policy gradient limited capability sample efficiency centralized training with decentralized execution

发现论文，激发创造

离散化正则化的多智能体演员 - 评论家算法

本文研究了分歧规则化在合作多智能体强化学习中的应用，提出了一种新的脱机分歧规则化多智能体演员 - 评论家框架 (DMAC)，理论上证明了 DMAC 更新规则是自然的脱机更新，并在原始 MDP 和分歧正则化 MDP 中保证单调政策改进和收敛，实验证明 DMAC 明显提高了现有 MARL 算法的性能。

Oct, 2021

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020

集中式培训与分散式执行框架对于多智能体强化学习而言是否足够集中？

本文介绍了一种名为 CADP（Centralized Advising and Decentralized Pruning）的框架，解决了现有的 CTDE 框架无法充分利用全局信息的问题，在保证了各个智能体独立策略的同时，通过启用显式的通信渠道，实现了智能体之间的有效信息交流与更加集中的训练，最终在 StarCraft II 和 Google Research Football 等基准测试中取得了优秀的性能表现。

May, 2023

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

基于宏动作的部分可观测性多智能体 / 机器人深度强化学习

本文提出了一种基于宏操作（macro-actions）的多智能体强化学习方法，该方法支持异步学习和决策制定，在多智能体 / 机器人领域具有广泛应用价值。本文的算法在多个领域的仿真实验和现实机器人实验中验证了其有效性和高质量解决方案的能力。

Sep, 2022

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

高效的样本有效的多智能体强化学习：优化视角

我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量，即多智能体解耦系数 (MADC)，我们旨在找到基于样本高效学习的最小假设。利用该度量，我们提出了首个统一的算法框架，可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外，我们还展示了与现有工作相比，我们的算法提供了可比较的次线性遗憾。此外，我们的算法结合了一个均衡求解器和一个单一目标优化次程序，用于求解每个确定性联合策略的正则化收益，从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023)，或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程，因此更适合于实证实现。

Oct, 2023

具有动态参与智能体的可转移的多智能体强化学习

本研究提出一种具有 Few-shot Learning 算法的网络架构，允许在集中式训练期间代理的数量变化，这可以使新代理的模型适应速度比基线模型快 100 多倍。

Aug, 2022

基于集中训练和分散执行的多智能体深度强化学习在交通基础设施管理中的应用

我们提出了一个多智能体深度强化学习框架，用于管理大型交通基础设施系统的全生命周期。该框架通过约束的部分可观测马尔可夫决策过程，解决了在存在不确定性、风险考量和有限资源的情况下，对交通基础设施进行优化管理的问题。通过开发一种名为 DDMAC-CTDE 的 Deep Decentralized Multi-agent Actor-Critic 方法，该框架在美国弗吉尼亚州的一个具有代表性和现实性的交通网络应用中展示了优越的性能。与传统的管理策略相比，该方法在真实约束和复杂性下提供了近乎最优的解决方案。

Jan, 2024

利用中央化训练的近期多智能体强化学习算法调查

为了实现人类般的协作，大量工作致力于探索实现集中式学习与分散式执行 (CLDE) 方法的多智能体强化学习 (MARL) 范式。在这里，我们讨论了集中式训练的变化，并描述了最近算法方法的调查。探讨不同的信息共享机制的中心化学习系统的实现如何在执行合作任务的多智能体系统中产生不同的团体协调行为。

Jul, 2021