Shapley Q-value:一种解决全局奖励博弈的本地奖励方法
本论文通过合作博弈理论研究了多智能体强化学习中的信用分配问题,提出了一种基于 Markov Shapley 值的信用分配方案,并应用于能源网络的真实问题上。
Feb, 2024
本论文提出一种名为 Q-value Path Decomposition(QPD)的方法,该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解,以便为代理分配信用,解决了多智能体信用分配的关键挑战,该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。
Feb, 2020
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。
Jun, 2022
合作多智能体强化学习中个体代理的贡献度一直是一项具有挑战性的任务,而本文提出的 Agent Importance 方法通过计算个体代理的贡献度,其计算复杂度相对于代理数量呈线性增长,能够有效代替耗时的 Shapley values 方法。实证结果表明 Agent Importance 与真实的 Shapley values 及底层个体代理奖励具有较强相关性,并且可用于诊断多智能体强化学习系统中的算法失败情况,从而作为未来强化学习基准测试的一个有价值的可解释性组成部分。
Dec, 2023
本文介绍了合作博弈理论的基本概念以及 Shapley value 的公理性质,概述了其在机器学习中的最重要应用:特征选择,可解释性,多智能体强化学习,集成修剪和数据估价,指出了 Shapley value 的主要局限性和未来研究方向。
Feb, 2022
本文提出了一种使用神经网络模型来学习协作博弈解决方案,以促进公平合作分配的方法,特别是 Shapley value 在 Explainable AI 中的应用。
Aug, 2022
本文提出了一种名为 Collaborative Q-learning (CollaQ) 的多智能体协作强化学习算法,它利用 Multi-Agent Reward Attribution (MARA) loss 进行训练并在 StarCraft 多智能体挑战中表现出色,尤其支持 ad hoc 团队玩法。该算法能将每个智能体的 Q 函数分解为自表达项和交互项,并在无需重新训练 / 微调的情况下,显著提高 SoTA 超过 30%。
Oct, 2020
本文提出了一种基于多头注意力机制和 Q-value 分解的深度多智能体强化学习算法和最大化算法,并在 StarCraft 基准测试中表现出国内领先的性能。
Feb, 2020
本研究提出了一种新的显式学分分配方法,名为具有贪心边际贡献的自适应价值分解(AVGM),它基于一种自适应价值分解,可以学习动态变化的多个智能体组的协作价值,并使用由价值分解计算出的贪心边际贡献作为个体信用来激励智能体学习最优协作策略。实验结果表明,我们的方法在多个非单调领域取得了显着的性能提高。
Feb, 2023