Mar, 2019

分布式强化学习的多智能体离线演员 - 评论家算法

TL;DR本研究将离线策略强化学习拓展至多智能体情景中,并利用强调时间差分学习来评估和提高目标策略的协作效应,进而提出了一种新的多智能体离线策略演员 - 评论家算法,并证明了收敛性。