BriefGPT.xyz
Mar, 2023
在马尔科夫博弈中我们能以线性速率找到纳什均衡吗?
Can We Find Nash Equilibria at a Linear Rate in Markov Games?
HTML
PDF
Zhuoqing Song, Jason D. Lee, Zhuoran Yang
TL;DR
研究了两个玩家的零和博弈下去中心化学习问题,提出了一种名为Homotopy-PO的元算法,通过交替使用本地快速算法和全局缓慢算法,使得机器人之间的政策收敛到了较稳健的纳什均衡状态,同时深入分析了算法的收敛性和性能。
Abstract
We study
decentralized learning
in two-player zero-sum discounted
markov games
where the goal is to design a
policy optimization
algorithm
→