基于Shapley值的多智能体强化学习:理论、方法及其在能源网络中的应用
本研究介绍了一个合作游戏理论框架(扩展凸性博弈ECG),提出了一个局部奖励方法(Shapley Q-value),并用其作为每个代理的评估函数,提出了一个MARL算法SQDDPG,并在导航,猎物与捕食者和交通路口等环境进行了实验,结果显示其相较于目前现有算法具有更快的收敛速度和公平的分配。
Jul, 2019
该研究旨在建立一个框架,以引导一群简单、专业、自我利益代理人解决传统上作为整体单一代理人序列决策问题的难题,并通过设计一种学习环境机制,使每个代理人的最优解与 Nash 平衡策略一致,并为其推导出了一类分散式强化学习算法,同时展示了该社群内在结构对于更高效的迁移学习可能带来的潜在优势。
Jul, 2020
本研究在非协调控制下,针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态,该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点,并且可以有效应对非固定环境的挑战。
Jun, 2021
本文介绍了一种名为异构代理镜像学习(HAML)的新型框架,该框架提供了一种通用的MARL算法设计模板,解决了在奖励单调性或收敛时的非最优性能问题,通过证明来自HAML模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性,并通过在星际争霸II和多智能体MuJoCo任务中验证了HAML的实用性。
Aug, 2022
本文提出了一种使用神经网络模型来学习协作博弈解决方案,以促进公平合作分配的方法,特别是Shapley value在Explainable AI中的应用。
Aug, 2022
本研究提出了计算Harsanyi-Shapley值的简单公式,探讨了将其推广到随机游戏中的两种方法,并在三个或更多玩家的随机网格游戏中通过实证验证了一种使用广义Q-learning算法计算HS值的方法。
Mar, 2023
提出了一种名为Spatial-Temporal Attention with Shapley(STAS)的新方法,该方法可以在时间和空间维度上学习信用分配,在多智能体强化学习中实现有效的空间 - 时间信用分配,优于所有现有的基线。
Apr, 2023
使用博弈理论的 Shapley 值,提出 Shapley Values for Explaining Reinforcement Learning (SVERL) 一般框架,以解释强化学习模型的性能和行为表现,取得了与直觉相符合的意义深刻的解释效果。
Jun, 2023
本文针对多智能体强化学习中的信用分配问题,提出了一种改进的多智能体强化学习算法PRD-MAPPO。该方法通过部分奖励解耦技术,利用学习的注意机制评估智能体的队友相关性,从而高效地进行信用分配,并在多个任务上展示了优于MAPPO的更高数据效率和渐近性能。
Aug, 2024