协作多智体学习的价值分解网络

Jun, 2017

Value-Decomposition Networks For Cooperative Multi-Agent Learning

Peter Sunehag, Guy Lever, Audrunas Gruslys, Wojciech Marian Czarnecki, Vinicius Zambaldi...

TL;DR利用价值分解网络架构解决合作多智能体强化学习中的观测部分性、虚假奖励和 “懒惰智能体” 问题，并在与共享权重、角色信息和信息通道相结合的情况下，在部分可观测的多智能体领域取得优越结果。

Abstract

We study the problem of cooperative multi-agent reinforcement learning with a single joint reward signal. This class of learning problems is difficult because of the often large combined action and observation spaces. In the fully centralized and decentralized approaches, we find the p

cooperative multi-agent reinforcement learning value decomposition network architecture partial observability lazy agent problem weight sharing

发现论文，激发创造

强化学习智能体迭代设计的价值函数分解

本文介绍如何将价值分解结合到广泛类的演员 - 评论家算法中，以协助迭代代理设计过程，包括引入基于价值分解的工具和一种新的奖励影响度量方法。

Jun, 2022

用于深度多智能体强化学习的 Q 值路径分解

本论文提出一种名为 Q-value Path Decomposition（QPD）的方法，该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解，以便为代理分配信用，解决了多智能体信用分配的关键挑战，该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。

Feb, 2020

基于贪心边际贡献计算的适应值分解用于协同多智体强化学习

本研究提出了一种新的显式学分分配方法，名为具有贪心边际贡献的自适应价值分解（AVGM），它基于一种自适应价值分解，可以学习动态变化的多个智能体组的协作价值，并使用由价值分解计算出的贪心边际贡献作为个体信用来激励智能体学习最优协作策略。实验结果表明，我们的方法在多个非单调领域取得了显着的性能提高。

Feb, 2023

利用世界模型的解缠以增强基于价值的多智能体强化学习

通过提出一种名为价值分解框架与解耦世界模型的新型基于模型的多智能体强化学习方法，本研究解决了多智能体在相同环境下实现共同目标的挑战，降低了样本复杂度，并通过实验结果表明，在 StarCraft II 微管理挑战中，该方法在样本效率和击败敌军方面表现出卓越的性能。

Sep, 2023

协作多智体强化学习的奖励机器

研究团队提出使用奖励机器（RM）对协作多智能体强化学习中的团队任务进行编码，分解任务成子任务分配给个体智能体去完成，提出一种分布式完成子任务的算法，提供了一种自然去中心化学习的方法，并在实验中验证了所提出的方法非常有效。

Jul, 2020

深度合作多智能体强化学习中的价值分解算法理解

本文研究了多智能体强化学习中的值函数分解方法在协作游戏中的适用情况、算法的收敛性质、深度神经网络的表示法及其应用，进一步提出了分解型协作游戏的概念，并理论证明了分解型协作游戏中多智能体适应 Q - 迭代算法（MA-FQI）可以导致最优 Q 函数。

Feb, 2022

针对协作式多智能体强化学习的可扩展价值分解探索算法

本文提出了一种可扩展的价值分解探索方法（SVDE），包括可扩展的训练机制、内在奖励设计和探索性经验回放，以加速样本生成并改善探索问题。实验结果显示，在 StarCraft II 微观管理游戏中，该方法在几乎所有地图上实现了最佳性能。

Mar, 2023

融合前瞻性和想象力：基于模型的协作多智能体强化学习

本文提出了一种隐式的基于模型的多智能体强化学习方法，基于价值分解方法，能够提高在不同部分可观察的马尔可夫决策过程领域中的样本效率。

Apr, 2022

多智体价值分解中的冗余挑战

通过使用层次相关传播，我们将联合价值函数的学习与本地奖励信号的生成分开，提出了一个新的合作多智能体增强学习算法：相关分解网络。我们发现，尽管 VDN 和 Qmix 的性能会随着冗余智能体数目的增加而降低，但 RDN 则不受影响。

Mar, 2023

隐私工程化价值分解网络用于合作多智体强化学习

在合作多智能体强化学习（Co-MARL）中，我们提出了一种隐私工程化的价值分解网络（PE-VDN）算法来建模多智能体间的协作且可确保各智能体的环境交互数据的机密性，通过整合分布式计算方案、隐私保护的多方计算协议和差分隐私技术，PE-VDN 在保证有效的隐私保护水平的同时实现了高达 Vanilla VDN 80% 的胜率。

Sep, 2023