QFree：多智能体强化学习的通用价值函数因子分解

Nov, 2023

QFree：多智能体强化学习的通用价值函数因子分解

QFree: A Universal Value Function Factorization for Multi-Agent Reinforcement Learning

Rizhong Wang, Huiping Li, Di Cui, Demin Xu

TL;DR我们提出了一种 MARL 的通用价值函数分解方法 QFree，它基于优势函数开发了 IGM 原则的数学等价条件，并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性，并展示了其在性能方面达到了最新水平。

Abstract

centralized training is widely utilized in the field of multi-agent reinforcement learning (MARL) to assure the stability of training process. Once a joint policy is obtained, it is critical to design a value function factorization method to extract optimal decentralized policies for t

centralized training multi-agent reinforcement learning value function factorization universal method qfree

发现论文，激发创造

DFAC 框架：通过分位点混合因式分解价值函数的多智能体分布式 Q 学习

本研究提出分布式价值函数分解（DFAC）框架，将分布式 RL 和价值函数分解方法相结合以解决多智能体强化学习环境中不确定性和随机性问题，实验证明 DFAC 可以在含随机回报的博弈任务上优于期望价值函数分解方法。

Feb, 2021

多智能体强化学习分解分布式值函数的统一框架

提出了一个名为 DFAC 的统一框架，用于将分布式 RL 与值函数分解方法相结合，以对多智能体 RL 问题进行建模和解决。DFAC 能够因子化回报分布，使得它能够在多个基准测试中具有更好的表现。

Jun, 2023

RiskQ：风险敏感的多智能体强化学习价值分解

多主体系统中的风险敏感协调要求和风险测量的多主体强化学习方法。

Nov, 2023

深度多智能体强化学习的单调价值函数分解

QMIX 是一种新的价值方法，可以在集中端到端的方式下训练分散的策略，通过使用混合网络来估计联合行动价值，并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性，并在 StarCraft 多智能体挑战赛（SMAC）中获得了显著的优越性。

Mar, 2020

QR-MIX: 合作多智能体强化学习中的分布式价值函数分解

提出了 QR-MIX 模型，通过引入分位数回归来建模联合状态行动值分布，结合 QMIX 和隐式分位数网络，提高了随机性和单调性的容忍度，优于 QMIX。

Sep, 2020

更集中化的训练，仍分散化的执行：多智能体条件策略分解

本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家，并提出了多智能体条件策略分解 (MACPF) 的方法，以更好地实现部分可观察环境下的学习。同时，通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的表现更优。

Sep, 2022

深度合作多智能体强化学习中的价值分解算法理解

本文研究了多智能体强化学习中的值函数分解方法在协作游戏中的适用情况、算法的收敛性质、深度神经网络的表示法及其应用，进一步提出了分解型协作游戏的概念，并理论证明了分解型协作游戏中多智能体适应 Q - 迭代算法（MA-FQI）可以导致最优 Q 函数。

Feb, 2022

QTRAN：基于变换因式分解的合作多智能体强化学习算法

本文旨在提出一种不受结构约束的因式分解方法 QTRAN，以解决 VDN 和 QMIX 等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明，QTRAN 优于先前的算法，特别是在惩罚非合作行为的游戏中，其优势更为明显。

May, 2019

多智能体强化学习中带有反事实预测的助攻价值因子分解算法

本篇论文提出了 PAC 框架，其中包含基于 Assistive 信息和 Counterfactual Predictions 的新颖 counterfactual loss，此框架考虑到局部顺序对表征函数造成的约束并解决了该限制，同时采用基于变分推断的信息编码方法以收集并编码来自基线的反事实预测，并推导出针对每个代理的分解策略，最后在多智能体捕食 - 逃生和一组 StarCraft II 微观管理任务中验证了 PAC 的有效性。

Jun, 2022

QPLEX: 双工 Dueling 多智能体 Q 学习

本文介绍了一种称为 duPLEX Dueling 多智能体 Q 学习的新型 MARL 方法，该方法利用 duplex dueling 网络结构对联合价值函数进行分解，以实现高效的价值函数学习，应用于 StarCraft II 微管理任务的经验实验表明，QPLEX 明显优于现有的基线算法，具有较高的样本效率和可以从离线数据集中获益的特点。

Aug, 2020