多智能体共识强化学习

Oct, 2018

Multi-Agent Common Knowledge Reinforcement Learning

Jakob N. Foerster, Christian A. Schroeder de Witt, Gregory Farquhar, Philip H. S. Torr, Wendelin Boehmer...

TL;DR本文提出一种基于多智能体共有信息的分层策略树的算法（MACKRL）实现复杂的去中心化协调，其中每个智能体可以独立地学习策略，并根据其共同知识进行协调，并在包括随机矩阵游戏和StarCraft II单元微管理等任务上实现更好的性能。

Abstract

In multi-agent reinforcement learning, centralised policies can only be executed if agents have access to either the global state or an instantaneous communication channel. An alternative approach that circumvents this limitation is to use centralised training of a set of →

发现论文，激发创造

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

基于策略梯度的可扩展集中化深度多智体强化学习

探索使用强化学习解决多智能体问题，将多智能体强化学习问题视为分布式优化问题处理，假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替，结果表明该算法在协作和竞争任务上比现有方法更加有效。

May, 2018

共享多智能体强化学习中的多样性庆祝

本研究介绍了多智能体强化学习中多样性的重要性，并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法，以促进代理之间的协作和多样性，实验结果表明该方法在Google Research Football和超难的星际争霸II微观管理任务上取得了最先进的表现。

Jun, 2021

利用中央化训练的近期多智能体强化学习算法调查

为了实现人类般的协作，大量工作致力于探索实现集中式学习与分散式执行 (CLDE) 方法的多智能体强化学习 (MARL) 范式。在这里，我们讨论了集中式训练的变化，并描述了最近算法方法的调查。探讨不同的信息共享机制的中心化学习系统的实现如何在执行合作任务的多智能体系统中产生不同的团体协调行为。

Jul, 2021

改进分散式多智能体强化学习的无模型算法

本文针对多智能体强化学习算法在代理数目增多时出现的采样复杂度指数级增长的现象，提出了一些去中心化的学习算法，并在几个关键的方面上做了优化，同时通过数值仿真验证我们理论的有效性。

Oct, 2021

更集中化的训练，仍分散化的执行：多智能体条件策略分解

本研究探索了如何在协作多智能体强化学习中融合价值分解和演员-评论家, 并提出了多智能体条件策略分解 (MACPF) 的方法，以更好地实现部分可观察环境下的学习。同时，通过在不同的合作MARL任务中进行实验证明MACPF相对于基线的表现更优。

Sep, 2022

CoMIX：高效分散协调和独立决策的多智能体强化学习训练架构

Coordinated QMIX (CoMIX) is a training framework for decentralized agents that enables emergent coordination through flexible policies, improving coordination in multi-agent systems.

Aug, 2023

通过公共操作图整合增强多智能体协作能力

多智能体系统中，代理人之间的通信对于加强协调至关重要。本研究提出了一种多智能体协调的方法，其中每个代理人具备将其观察、行动和接收到的信息整合到一个公共操作图中并传播的能力。实验结果表明，与最先进的多智能体强化学习方法相比，基于公共操作图的训练方法在面对分布不均的初始状态时能够产生出鲁棒的策略。

Nov, 2023

完全去中心化的合作多智能体强化学习：调查

该论文系统地回顾了两种全面分散设置下的全面分散方法，即最大化所有代理的共享奖励和最大化所有代理的个人奖励之和，并讨论了未来研究方向。

Jan, 2024

基于层次一致性的多智能体强化学习在多机器人协作任务中的应用

多代理强化学习中的中央化训练与分散执行框架存在全局状态引导和地方观测依赖的差距。通过引入基于分层一致性的多智能体强化学习框架，采用对比学习来促进智能体之间的全局一致性，从而实现协同行为而无需直接通信。该框架允许智能体从地方观测中形成全局一致性，并在执行期间将其作为额外信息来指导协同行动，通过多层次的一致性满足各种任务的动态需求。采用自适应注意机制调整每个一致性层的影响，优化即时反应和战略规划之间的平衡，以适应特定任务的要求。通过大量实验和在多机器人系统中的实际应用，展示了我们框架相对于基准的卓越性能，取得了显著的进展。

Jul, 2024