深度合作多智能体强化学习中的价值分解算法理解
本研究提出了一种新的显式学分分配方法,名为具有贪心边际贡献的自适应价值分解(AVGM),它基于一种自适应价值分解,可以学习动态变化的多个智能体组的协作价值,并使用由价值分解计算出的贪心边际贡献作为个体信用来激励智能体学习最优协作策略。实验结果表明,我们的方法在多个非单调领域取得了显着的性能提高。
Feb, 2023
本论文提出一种名为 Q-value Path Decomposition(QPD)的方法,该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解,以便为代理分配信用,解决了多智能体信用分配的关键挑战,该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。
Feb, 2020
在合作多智能体强化学习领域,我们提出了一种基于双重自我意识概念的价值分解框架,它完全拒绝了个体全局最大原则。通过使用明确的搜索过程,价值函数分解可以忽略 IGM 假设。我们还提出了一种新颖的抗自我探索机制,以避免算法陷入局部最优解。作为第一个完全不遵循 IGM 规则的价值分解方法,我们提出的框架在各种协作任务中实现了理想的性能。
Feb, 2023
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。
Jun, 2022
我们提出了一种 MARL 的通用价值函数分解方法 QFree,它基于优势函数开发了 IGM 原则的数学等价条件,并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性,并展示了其在性能方面达到了最新水平。
Nov, 2023
该论文提出了基于 MAXQ 方法的分层强化学习,该方法通过将目标 MDP 分解为较小的 MDP 层次结构,并将目标 MDP 的值函数分解为较小 MDP 的值函数的加性组合来进行操作。同时,该论文引入了五个条件以安全地使用状态抽象。此外,该论文提出了一种新的在线无模型学习算法,MAXQ-Q,证明了其即使在存在五种状态抽象的情况下,该算法收敛于本地最优策略。实验结果表明,使用状态抽象的 MAXQ-Q 比平面 Q 学习更快地收敛于递归最优策略,并通过实验证明了该非分层执行的有效性。
May, 1999
本文提出了一种基于多头注意力机制和 Q-value 分解的深度多智能体强化学习算法和最大化算法,并在 StarCraft 基准测试中表现出国内领先的性能。
Feb, 2020
利用价值分解网络架构解决合作多智能体强化学习中的观测部分性、虚假奖励和 “懒惰智能体” 问题,并在与共享权重、角色信息和信息通道相结合的情况下,在部分可观测的多智能体领域取得优越结果。
Jun, 2017
本研究提出了第一个非线性协调图,探讨如何在新的函数类中进行贪心行动选择,使用 LeakyReLU 激活的混合网络解决此问题,提出具有全局最优性保证的枚举方法和具有局部最优性保证的有效迭代优化方法的动机。在多个代理协调任务中取得了卓越性能。
Oct, 2022