May, 2017

反事实多智能体策略梯度

TL;DR通过提出一种新的多智能体演员 - 评论家方法,使用中心化评论家估算 Q 函数和分散化演员来优化智能体的策略,使用反事实基线来处理多智能体学分分配的挑战,该方法能够有效地学习到分散式问题的解决方案,并在星际争霸微操作测试环境中显著提高了绩效表现。