Jul, 2019
Shapley Q-value:一种解决全局奖励博弈的本地奖励方法
Rethink Global Reward Game and Credit Assignment in Multi-agent
Reinforcement Learning
TL;DR本研究介绍了一个合作游戏理论框架(扩展凸性博弈ECG),提出了一个局部奖励方法(Shapley Q-value),并用其作为每个代理的评估函数,提出了一个MARL算法SQDDPG,并在导航,猎物与捕食者和交通路口等环境进行了实验,结果显示其相较于目前现有算法具有更快的收敛速度和公平的分配。