多智能体强化学习中带有反事实预测的助攻价值因子分解算法

Jun, 2022

多智能体强化学习中带有反事实预测的助攻价值因子分解算法

PAC: Assisted Value Factorisation with Counterfactual Predictions in Multi-Agent Reinforcement Learning

Hanhan Zhou, Tian Lan, Vaneet Aggarwal

TL;DR本篇论文提出了 PAC 框架，其中包含基于 Assistive 信息和 Counterfactual Predictions 的新颖 counterfactual loss，此框架考虑到局部顺序对表征函数造成的约束并解决了该限制，同时采用基于变分推断的信息编码方法以收集并编码来自基线的反事实预测，并推导出针对每个代理的分解策略，最后在多智能体捕食 - 逃生和一组 StarCraft II 微观管理任务中验证了 PAC 的有效性。

Abstract

multi-agent reinforcement learning (MARL) has witnessed significant progress with the development of value function factorization methods. It allows optimizing a joint action-value function through the maximizati

multi-agent reinforcement learning value function factorization partially observable problems counterfactual predictions decentralized execution

发现论文，激发创造

更集中化的训练，仍分散化的执行：多智能体条件策略分解

本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家，并提出了多智能体条件策略分解 (MACPF) 的方法，以更好地实现部分可观察环境下的学习。同时，通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的表现更优。

Sep, 2022

多智能体强化学习分解分布式值函数的统一框架

提出了一个名为 DFAC 的统一框架，用于将分布式 RL 与值函数分解方法相结合，以对多智能体 RL 问题进行建模和解决。DFAC 能够因子化回报分布，使得它能够在多个基准测试中具有更好的表现。

Jun, 2023

DFAC 框架：通过分位点混合因式分解价值函数的多智能体分布式 Q 学习

本研究提出分布式价值函数分解（DFAC）框架，将分布式 RL 和价值函数分解方法相结合以解决多智能体强化学习环境中不确定性和随机性问题，实验证明 DFAC 可以在含随机回报的博弈任务上优于期望价值函数分解方法。

Feb, 2021

QFree：多智能体强化学习的通用价值函数因子分解

我们提出了一种 MARL 的通用价值函数分解方法 QFree，它基于优势函数开发了 IGM 原则的数学等价条件，并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性，并展示了其在性能方面达到了最新水平。

Nov, 2023

风险感知的分布式多智能体强化学习

研究了在未知环境下的决策问题，使用分布式多智能体强化学习和条件风险价值的方法进行决策，并通过模拟评估验证了该方法。

Apr, 2023

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

多智能体强化学习中的图卷积值分解

该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架，包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX，能够优于当前最先进方法，可用于 StarCraft II 多智能体挑战基准测试中，同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。

Oct, 2020

合作多智能体深度强化学习综述

本综述文章探讨了最新的多智能体强化学习算法，特别关注建模和解决合作多智能体强化学习问题的五种常见方法，以及 MARL 在真实世界应用中的成功，并提供了可用于 MARL 研究的环境列表和可能的研究方向。

Aug, 2019

多智体强化学习中的随机实体分解

本文介绍了一种名为 REFIL 的方法，能够在多个具有不同类型和数量的代理和非代理实体的任务中发现共性，从而提高多任务环境下的学习效率，并在挑战性的多任务 StarCraft 微管理环境中显著优于所有强基线。

Jun, 2020

多智体价值分解中的冗余挑战

通过使用层次相关传播，我们将联合价值函数的学习与本地奖励信号的生成分开，提出了一个新的合作多智能体增强学习算法：相关分解网络。我们发现，尽管 VDN 和 Qmix 的性能会随着冗余智能体数目的增加而降低，但 RDN 则不受影响。

Mar, 2023