离线多智能体强化学习与耦合值因子分解

Jun, 2023

离线多智能体强化学习与耦合值因子分解

Offline Multi-Agent Reinforcement Learning with Coupled Value Factorization

Xiangsen Wang, Xianyuan Zhan

TL;DROMAC 是一种新的离线多智能体强化学习算法，采用耦合值分解方案将全局价值函数分解为本地和共享组件，并保持状态值和 Q 值函数之间的信用分配一致性，并在分解的本地状态值函数上执行样本内学习，同时避免由于评估分布外动作而引起的分布移位，基于综合评估离线多智能体 StarCraft II 微观管理任务，我们展示了 OMAC 比最先进的离线多智能体 RL 方法具有更优越的性能。

Abstract

offline reinforcement learning (RL) that learns policies from offline datasets without environment interaction has received considerable attention in recent years. Compared with the rich literature in the single-agent case, offline multi-agent RL is still a relatively underexplored are

offline reinforcement learning multi-agent reinforcement learning coupled value factorization credit assignment consistency starcraft ii micro-management tasks

发现论文，激发创造

离线多智能体强化学习中的隐式全局局部价值规范化

OMIGA 是一种新的离线多智能体强化学习算法，具有隐式的全局到局部值正则化，能够在实例学习中同时实现多智能体值分解和离线正则化的策略学习，通过在离线多智能体任务中的全面实验表明，OMIGA 在几乎所有任务中表现优于最先进的离线多智能体强化学习方法。

Jul, 2023

离线多智能体强化学习的反事实保守 Q 学习

我们提出了一个新颖的多智能体离线强化学习算法，名为 CounterFactual Conservative Q-Learning (CFCQL)，通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响，并在多个环境中进行了实验验证。

Sep, 2023

更集中化的训练，仍分散化的执行：多智能体条件策略分解

本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家，并提出了多智能体条件策略分解 (MACPF) 的方法，以更好地实现部分可观察环境下的学习。同时，通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的表现更优。

Sep, 2022

QFree：多智能体强化学习的通用价值函数因子分解

我们提出了一种 MARL 的通用价值函数分解方法 QFree，它基于优势函数开发了 IGM 原则的数学等价条件，并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性，并展示了其在性能方面达到了最新水平。

Nov, 2023

深度多智能体强化学习的单调价值函数分解

QMIX 是一种新的价值方法，可以在集中端到端的方式下训练分散的策略，通过使用混合网络来估计联合行动价值，并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性，并在 StarCraft 多智能体挑战赛（SMAC）中获得了显著的优越性。

Mar, 2020

多智能体强化学习中带有反事实预测的助攻价值因子分解算法

本篇论文提出了 PAC 框架，其中包含基于 Assistive 信息和 Counterfactual Predictions 的新颖 counterfactual loss，此框架考虑到局部顺序对表征函数造成的约束并解决了该限制，同时采用基于变分推断的信息编码方法以收集并编码来自基线的反事实预测，并推导出针对每个代理的分解策略，最后在多智能体捕食 - 逃生和一组 StarCraft II 微观管理任务中验证了 PAC 的有效性。

Jun, 2022

脱机增强型演员 - 评论者：在深度离线策略强化学习中自适应混合优化历史行为

基于强化学习的离策略算法 OBAC 通过对值进行比较，识别出性能表现优越的线下策略，并将其作为自适应约束条件，以保证更强的策略学习表现。实验结果表明，在样本效率和渐近性能方面，OBAC 超过了其他常见的无模型强化学习和先进的有模型强化学习方法，涵盖了 6 个任务套件共 53 个任务。

May, 2024

多智能体强化学习分解分布式值函数的统一框架

提出了一个名为 DFAC 的统一框架，用于将分布式 RL 与值函数分解方法相结合，以对多智能体 RL 问题进行建模和解决。DFAC 能够因子化回报分布，使得它能够在多个基准测试中具有更好的表现。

Jun, 2023

COMBO: 保守的离线基于模型的策略优化

该研究提出一种新的基于模型的线下强化学习算法（COMBO），该算法不需要显式的不确定性估计，通过对已学习模型下的滚动状态动作元组进行价值函数正则化，从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限，且实验表明与先前的线下模型自由和基于模型的方法相比，COMBO 在广泛研究的线下 RL 基准测试中表现持续改进。

Feb, 2021

DFAC 框架：通过分位点混合因式分解价值函数的多智能体分布式 Q 学习

本研究提出分布式价值函数分解（DFAC）框架，将分布式 RL 和价值函数分解方法相结合以解决多智能体强化学习环境中不确定性和随机性问题，实验证明 DFAC 可以在含随机回报的博弈任务上优于期望价值函数分解方法。

Feb, 2021