PMIC: 用渐进式互信息协作改进多智能体强化学习

ICMLMar, 2022

PMIC: 用渐进式互信息协作改进多智能体强化学习

PMIC: Improving Multi-Agent Reinforcement Learning with Progressive Mutual Information Collaboration

Pengyi Li, Hongyao Tang, Tianpei Yang, Xiaotian Hao, Tong Sang...

TL;DR提出了一种 MARL 框架，叫做渐进式互信息协作（PMIC），其通过最大化优秀协作行为相关的互信息和最小化次优协作行为相关的互信息以促进更好的协作，并避免陷入次优协作行为，实验结果表明，PMIC 相较于其他算法具有优异的表现。

Abstract

Learning to collaborate is critical in multi-agent reinforcement learning (MARL). Previous works promote collaboration by maximizing the correlation of agents' behaviors, which is typically characterized by

multi-agent reinforcement learning collaboration mutual information marl framework pmic

发现论文，激发创造

多智能体强化学习的最大互信息框架

本文提出了一个最大互信息（MMI）框架，用于多智能体强化学习，通过在行动之间的互信息上采取正则化累积回报，使多个智能体学习协调行为。通过引入潜在变量来诱导非零互信息，并应用变分界，我们推导了所考虑的 MMI - 正则化目标函数的可处理下界。将策略迭代应用于最大化所得到的下界，我们提出了一个名为变分最大互信息多智能体演员 - 评论家（VM3-AC）的实用算法，它遵循中央化学习与分散执行（CTDE）的方法。我们在几个需要协调的游戏中评估了 VM3-AC，并且数值结果表明 VM3-AC 在需要协调的多智能体任务中优于 MADDPG 和其他 MARL 算法。

Jun, 2020

在合作与拜占庭式分散团队中使用互信息进行迭代推理

本文提出 InfoPG 算法，以最大化相互信息来优化多智能体协作决策，有效地在多个复杂任务中提高了学习效率和总奖励。

Jan, 2022

MIR2: 通过相互信息正则化迈向可证实鲁棒性的多智能体强化学习

提出一种名为 MIR2 的方法，通过在常规情景训练策略并最小化互信息作为鲁棒正则化来提高多智能体强化学习的鲁棒性，实验证明 MIR2 在各种情况下都能比现有的 max-min 优化方法展现出更大的对抗性。

Oct, 2023

多智能体强化学习中基于互信息协调的变分方法

本文提出了一种新的用于多智能体强化学习的互信息框架，以实现多个智能体协调行为，并通过同时多智能体行为间的互信息来规范累积收益。将多个智能体行为间的互信息引入一个潜在变量，应用变分下界，得到了一个可处理的目标函数下界，该下界可以解释为最大熵强化学习与其他智能体行为的不确定性降低相结合，通过将此下界最大化，提出了一个名为变分最大互信息的多智能体演员 - 批评家算法 (VM3-AC)，其遵循集中式学习与分散式执行。在多个需要协调的游戏中对 VM3-AC 进行了评估，数值结果表明 VM3-AC 在需要高质量协调的多智能体任务上胜过其他多智能体强化学习算法。

Mar, 2023

PP-MARL: 高效隐私保护多智能体协作通信智能化

本论文提出了一种 PP-MARL 隐私保护学习方案，基于多智能体强化学习，应用于通信网络中的移动管理和边缘智能网络控制领域，以实现更有效、可靠的协作和更好的隐私保护。在模拟实验中，该方案达到了比现有方法更好的隐私保护和更低的开销。

Apr, 2022

什么造就良好的协作视角？多智能体感知的对比互信息最大化

探索中介协作视角下协作感知的 "良好" 特性及其与个体视角的潜在关系，提出了一个名为 CMiMC 的新框架，利用多视角对比学习建立了 CMiMNet，实现了多视图互信息的估计和最大化，提高了性能并减少通信量。

Mar, 2024

最大化互信息以获得稳健可规划表征

MIRO 设计了一个潜在的数据空间，最大化与未来信息的互信息，同时能够捕获规划所需的所有信息，并在干扰和杂乱的场景中比重建目标更具鲁棒性。

May, 2020

合作多智能体增强学习中的共识达成与目标想象

多智能体协调中，达成共识是关键。本文提出一种基于模型的共识机制，通过想象出一个共同目标来引导多智能体达成共识，进而引导他们合作地达到有价值的未来状态。

Mar, 2024

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

共享多智能体强化学习中的多样性庆祝

本研究介绍了多智能体强化学习中多样性的重要性，并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法，以促进代理之间的协作和多样性，实验结果表明该方法在 Google Research Football 和超难的星际争霸 II 微观管理任务上取得了最先进的表现。

Jun, 2021