Jan, 2019
去中心化网络化深度多智能体强化学习的价值传播
Value Propagation for Decentralized Networked Deep Multi-agent Reinforcement Learning
Chao Qu, Shie Mannor, Huan Xu, Yuan Qi, Le Song...
TL;DR本研究提出了一种名为 value propagation 的基于 softmax 时间一致性和分布式优化的 MARL 算法,实现了非线性函数逼近、非 asymptotic 收敛率、离线策略转移和控制的收敛保证。