Jun, 2018

双平均原始对偶优化的多智能体强化学习

TL;DR该论文提出了一种双重平均方案,其中每个代理迭代地执行平均化,以融合相邻梯度信息和本地奖励信息,解决多智能体强化学习中的政策评估问题,并且实现了分散的凸凹螺旋点问题的快速收敛。