多智能体强化学习分解分布式值函数的统一框架

Jun, 2023

多智能体强化学习分解分布式值函数的统一框架

A Unified Framework for Factorizing Distributional Value Functions for Multi-Agent Reinforcement Learning

Wei-Fang Sun, Cheng-Kuang Lee, Simon See, Chun-Yi Lee

TL;DR提出了一个名为 DFAC 的统一框架，用于将分布式 RL 与值函数分解方法相结合，以对多智能体 RL 问题进行建模和解决。DFAC 能够因子化回报分布，使得它能够在多个基准测试中具有更好的表现。

Abstract

In fully cooperative multi-agent reinforcement learning (MARL) settings, environments are highly stochastic due to the partial observability of each agent and the continuously changing policies of other agents. To address the above issues, we proposed a unified framework, called

multi-agent reinforcement learning dfac value function factorization return distributions super hard maps

发现论文，激发创造

DFAC 框架：通过分位点混合因式分解价值函数的多智能体分布式 Q 学习

本研究提出分布式价值函数分解（DFAC）框架，将分布式 RL 和价值函数分解方法相结合以解决多智能体强化学习环境中不确定性和随机性问题，实验证明 DFAC 可以在含随机回报的博弈任务上优于期望价值函数分解方法。

Feb, 2021

QFree：多智能体强化学习的通用价值函数因子分解

我们提出了一种 MARL 的通用价值函数分解方法 QFree，它基于优势函数开发了 IGM 原则的数学等价条件，并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性，并展示了其在性能方面达到了最新水平。

Nov, 2023

多智能体强化学习中带有反事实预测的助攻价值因子分解算法

本篇论文提出了 PAC 框架，其中包含基于 Assistive 信息和 Counterfactual Predictions 的新颖 counterfactual loss，此框架考虑到局部顺序对表征函数造成的约束并解决了该限制，同时采用基于变分推断的信息编码方法以收集并编码来自基线的反事实预测，并推导出针对每个代理的分解策略，最后在多智能体捕食 - 逃生和一组 StarCraft II 微观管理任务中验证了 PAC 的有效性。

Jun, 2022

更集中化的训练，仍分散化的执行：多智能体条件策略分解

本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家，并提出了多智能体条件策略分解 (MACPF) 的方法，以更好地实现部分可观察环境下的学习。同时，通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的表现更优。

Sep, 2022

多智体价值分解中的冗余挑战

通过使用层次相关传播，我们将联合价值函数的学习与本地奖励信号的生成分开，提出了一个新的合作多智能体增强学习算法：相关分解网络。我们发现，尽管 VDN 和 Qmix 的性能会随着冗余智能体数目的增加而降低，但 RDN 则不受影响。

Mar, 2023

多智能体强化学习中的图卷积值分解

该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架，包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX，能够优于当前最先进方法，可用于 StarCraft II 多智能体挑战基准测试中，同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。

Oct, 2020

合作多智能体深度强化学习综述

本综述文章探讨了最新的多智能体强化学习算法，特别关注建模和解决合作多智能体强化学习问题的五种常见方法，以及 MARL 在真实世界应用中的成功，并提供了可用于 MARL 研究的环境列表和可能的研究方向。

Aug, 2019

学习因子策略和动作值函数：因子化动作空间表示在深度强化学习中的应用

该论文提出了一种新的学习范式，即分解学习控制策略使其在实现多个动作时只需要执行一个动作，从而取得了显著的性能提升，特别是在 Atari 2600 游戏中媲美或超过了两种 DRL 算法。

May, 2017

基于图诱导的局部价值函数的分布式多智能体强化学习

本文提出了一种可行的分布式学习框架来处理多智能体协作强化学习中的信任问题，这种方法使用图的结构描述不同类型的多智能体之间的关系，并提出了两种基于本地价值函数的分布式 Reinforcement Learning (RL) 方法，能够在保证有效性的前提下，大幅减少采样复杂性。

Feb, 2022

多智体强化学习中的随机实体分解

本文介绍了一种名为 REFIL 的方法，能够在多个具有不同类型和数量的代理和非代理实体的任务中发现共性，从而提高多任务环境下的学习效率，并在挑战性的多任务 StarCraft 微管理环境中显著优于所有强基线。

Jun, 2020