Jul, 2019

Shapley Q-value:一种解决全局奖励博弈的本地奖励方法

TL;DR本研究介绍了一个合作游戏理论框架 (扩展凸性博弈 ECG),提出了一个局部奖励方法 (Shapley Q-value),并用其作为每个代理的评估函数,提出了一个 MARL 算法 SQDDPG,并在导航,猎物与捕食者和交通路口等环境进行了实验,结果显示其相较于目前现有算法具有更快的收敛速度和公平的分配。