多智能体强化学习中基于互信息协调的变分方法

Mar, 2023

多智能体强化学习中基于互信息协调的变分方法

A Variational Approach to Mutual Information-Based Coordination for Multi-Agent Reinforcement Learning

Woojun Kim, Whiyoung Jung, Myungsik Cho, Youngchul Sung

TL;DR本文提出了一种新的用于多智能体强化学习的互信息框架，以实现多个智能体协调行为，并通过同时多智能体行为间的互信息来规范累积收益。将多个智能体行为间的互信息引入一个潜在变量，应用变分下界，得到了一个可处理的目标函数下界，该下界可以解释为最大熵强化学习与其他智能体行为的不确定性降低相结合，通过将此下界最大化，提出了一个名为变分最大互信息的多智能体演员 - 批评家算法 (VM3-AC)，其遵循集中式学习与分散式执行。在多个需要协调的游戏中对 VM3-AC 进行了评估，数值结果表明 VM3-AC 在需要高质量协调的多智能体任务上胜过其他多智能体强化学习算法。

Abstract

In this paper, we propose a new mutual information framework for multi-agent reinforcement learning to enable multiple agents to learn coordinated behaviors by regularizing the accumulated return with the simulta

multi-agent reinforcement learning mutual information coordinated behaviors variational maximum mutual information multi-agent actor-critic coordination

发现论文，激发创造

多智能体强化学习的最大互信息框架

本文提出了一个最大互信息（MMI）框架，用于多智能体强化学习，通过在行动之间的互信息上采取正则化累积回报，使多个智能体学习协调行为。通过引入潜在变量来诱导非零互信息，并应用变分界，我们推导了所考虑的 MMI - 正则化目标函数的可处理下界。将策略迭代应用于最大化所得到的下界，我们提出了一个名为变分最大互信息多智能体演员 - 评论家（VM3-AC）的实用算法，它遵循中央化学习与分散执行（CTDE）的方法。我们在几个需要协调的游戏中评估了 VM3-AC，并且数值结果表明 VM3-AC 在需要协调的多智能体任务中优于 MADDPG 和其他 MARL 算法。

Jun, 2020

内在动机强化学习的变分信息最大化

本文提供了一种新的通过合并变分推理和深度学习技术以扩展优化相互信息的方法，该方法可用于从像素到动作的可伸缩信息最大化和基于赋权的推理。

Sep, 2015

在合作与拜占庭式分散团队中使用互信息进行迭代推理

本文提出 InfoPG 算法，以最大化相互信息来优化多智能体协作决策，有效地在多个复杂任务中提高了学习效率和总奖励。

Jan, 2022

MIR2: 通过相互信息正则化迈向可证实鲁棒性的多智能体强化学习

提出一种名为 MIR2 的方法，通过在常规情景训练策略并最小化互信息作为鲁棒正则化来提高多智能体强化学习的鲁棒性，实验证明 MIR2 在各种情况下都能比现有的 max-min 优化方法展现出更大的对抗性。

Oct, 2023

PMIC: 用渐进式互信息协作改进多智能体强化学习

提出了一种 MARL 框架，叫做渐进式互信息协作（PMIC），其通过最大化优秀协作行为相关的互信息和最小化次优协作行为相关的互信息以促进更好的协作，并避免陷入次优协作行为，实验结果表明，PMIC 相较于其他算法具有优异的表现。

Mar, 2022

变分课程增强学习用于无监督技能发现

基于互信息的强化学习作为一种无需任务导向奖励函数的复杂技能自主检索方法已被提出，但由于训练技能的顺序会在很大程度上影响样本效率，对于学习复杂技能仍具有挑战性。本文提出了一种名为变分课程强化学习（VCRL）的方法，将变分增强视为内在奖励函数的目标条件强化学习中的课程学习，并基于信息理论提出了一种无监督技能发现的新方法，称为值不确定性变分课程（VUVC）。我们证明，在一定的正则条件下，与均匀课程相比，VUVC 能够加快访问状态熵的增加。我们通过复杂导航和机器人操作任务验证了我们方法的有效性，同时以零次设定下的真实世界机器人导航任务为例，证明了通过我们方法发现的技能能够成功完成任务，并且将这些技能与全局规划器相结合可以进一步提高性能。

Oct, 2023

协作多智能体模仿学习

本文研究多个协调代理的演示的模仿学习问题，提出了一种综合了无监督结构学习和传统模仿学习的方法来同时学习潜在的协调模型和单个策略，通过在团队运动中学习多个策略的行为建模问题，表明了本文方法的强大之处。

Mar, 2017

基于变分逆强化学习的多任务可迁移奖励学习

利用生成对抗网络框架下的多任务环境下的赋能制约技术，从无标记的专家示例中同时学习可转移的多任务奖励函数和策略，并证明其比现有的模仿学习方法具有更好的性能和数据效率。

Jun, 2022

利用信息正则化学会共享与隐藏意图

本研究提出一种信息理论规则化方法，以学习多智能体强化学习中的合作和竞争策略，结果在两个简单的非对称信息博弈中表明，使用我们提出的方法学习到的合作（竞争）策略会带来更多（更少）的奖励。

Aug, 2018

共享多智能体强化学习中的多样性庆祝

本研究介绍了多智能体强化学习中多样性的重要性，并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法，以促进代理之间的协作和多样性，实验结果表明该方法在 Google Research Football 和超难的星际争霸 II 微观管理任务上取得了最先进的表现。

Jun, 2021