Jan, 2021

竞争式强化学习的独立策略梯度方法

TL;DR本论文在两个代理竞争式强化学习环境 (即零和随机博弈) 中,通过独立学习算法和政策梯度方法,证明了通过双时间尺度规则,两个代理的策略将收敛于游戏的极小值-最大值均衡点。这是首个有限样本收敛结果的独立政策梯度方法在竞争 RL中的表现;先前的工作主要集中在集中式,协调过程的均衡计算上。