多智能体强化学习的最大互信息框架

Jun, 2020

多智能体强化学习的最大互信息框架

A Maximum Mutual Information Framework for Multi-Agent Reinforcement Learning

Woojun Kim, Whiyoung Jung, Myungsik Cho, Youngchul Sung

TL;DR本文提出了一个最大互信息（MMI）框架，用于多智能体强化学习，通过在行动之间的互信息上采取正则化累积回报，使多个智能体学习协调行为。通过引入潜在变量来诱导非零互信息，并应用变分界，我们推导了所考虑的 MMI - 正则化目标函数的可处理下界。将策略迭代应用于最大化所得到的下界，我们提出了一个名为变分最大互信息多智能体演员 - 评论家（VM3-AC）的实用算法，它遵循中央化学习与分散执行（CTDE）的方法。我们在几个需要协调的游戏中评估了 VM3-AC，并且数值结果表明 VM3-AC 在需要协调的多智能体任务中优于 MADDPG 和其他 MARL 算法。

Abstract

In this paper, we propose a maximum mutual information (MMI) framework for multi-agent reinforcement learning (MARL) to enable multiple agents to learn coordinated behaviors by regularizing the accumulated return

multi-agent reinforcement learning mutual information coordinated behavior policy iteration actor-critic

发现论文，激发创造

多智能体强化学习中基于互信息协调的变分方法

本文提出了一种新的用于多智能体强化学习的互信息框架，以实现多个智能体协调行为，并通过同时多智能体行为间的互信息来规范累积收益。将多个智能体行为间的互信息引入一个潜在变量，应用变分下界，得到了一个可处理的目标函数下界，该下界可以解释为最大熵强化学习与其他智能体行为的不确定性降低相结合，通过将此下界最大化，提出了一个名为变分最大互信息的多智能体演员 - 批评家算法 (VM3-AC)，其遵循集中式学习与分散式执行。在多个需要协调的游戏中对 VM3-AC 进行了评估，数值结果表明 VM3-AC 在需要高质量协调的多智能体任务上胜过其他多智能体强化学习算法。

Mar, 2023

MIR2: 通过相互信息正则化迈向可证实鲁棒性的多智能体强化学习

提出一种名为 MIR2 的方法，通过在常规情景训练策略并最小化互信息作为鲁棒正则化来提高多智能体强化学习的鲁棒性，实验证明 MIR2 在各种情况下都能比现有的 max-min 优化方法展现出更大的对抗性。

Oct, 2023

PMIC: 用渐进式互信息协作改进多智能体强化学习

提出了一种 MARL 框架，叫做渐进式互信息协作（PMIC），其通过最大化优秀协作行为相关的互信息和最小化次优协作行为相关的互信息以促进更好的协作，并避免陷入次优协作行为，实验结果表明，PMIC 相较于其他算法具有优异的表现。

Mar, 2022

在合作与拜占庭式分散团队中使用互信息进行迭代推理

本文提出 InfoPG 算法，以最大化相互信息来优化多智能体协作决策，有效地在多个复杂任务中提高了学习效率和总奖励。

Jan, 2022

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

共享多智能体强化学习中的多样性庆祝

本研究介绍了多智能体强化学习中多样性的重要性，并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法，以促进代理之间的协作和多样性，实验结果表明该方法在 Google Research Football 和超难的星际争霸 II 微观管理任务上取得了最先进的表现。

Jun, 2021

具有网络代理的完全分散的多代理强化学习

本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题，这两个算法均为完全去中心化的 Actor-Critic 算法，能够应用于大规模多智能体学习问题中，并在模拟实验中验证了算法的有效性和可收敛性。

Feb, 2018

M$^3$RL: 意识感知的多智能体管理强化学习

本文提出 Mind-aware Multi-agent Management Reinforcement Learning (M^3RL) 算法，通过对多个自我意识且不可控制的机器人进行建模，实现超级机器人的管理和操纵，以实现最优的多机器人协同任务分配和奖励系统。

Sep, 2018

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

最大熵异质代理镜像学习

本文提出了一种新的理论框架 MEHAML，利用最大熵原理设计最大熵 MARL Actor-Critic 算法，证明了所得算法具有联合最大熵目标的单调改进和收敛到量子响应平衡（QRE）的所需属性，实验结果表明，在三个基准测试中，HASAC（软 Actor-Critic）的性能超越了 HATD3、HAPPO、QMIX 和 MAPPO 等强基线方法，成为了新的最优方法。

Jun, 2023