竞争式强化学习的独立策略梯度方法

Jan, 2021

竞争式强化学习的独立策略梯度方法

Independent Policy Gradient Methods for Competitive Reinforcement Learning

Constantinos Daskalakis, Dylan J. Foster, Noah Golowich

TL;DR本论文在两个代理竞争式强化学习环境 (即零和随机博弈) 中，通过独立学习算法和政策梯度方法，证明了通过双时间尺度规则，两个代理的策略将收敛于游戏的极小值-最大值均衡点。这是首个有限样本收敛结果的独立政策梯度方法在竞争 RL中的表现;先前的工作主要集中在集中式，协调过程的均衡计算上。

Abstract

We obtain global, non-asymptotic convergence guarantees for independent learning algorithms in competitive reinforcement learning settings with two agents (i.e., zero-sum stochastic games). We consider an episodi