Jan, 2019

去中心化网络化深度多智能体强化学习的价值传播

TL;DR本研究提出了一种名为value propagation的基于softmax时间一致性和分布式优化的MARL算法,实现了非线性函数逼近、非asymptotic收敛率、离线策略转移和控制的收敛保证。