Jan, 2019

去中心化网络化深度多智能体强化学习的价值传播

TL;DR本研究提出了一种名为 value propagation 的基于 softmax 时间一致性和分布式优化的 MARL 算法,实现了非线性函数逼近、非 asymptotic 收敛率、离线策略转移和控制的收敛保证。