Mar, 2023

在马尔科夫博弈中我们能以线性速率找到纳什均衡吗?

TL;DR研究了两个玩家的零和博弈下去中心化学习问题,提出了一种名为Homotopy-PO的元算法,通过交替使用本地快速算法和全局缓慢算法,使得机器人之间的政策收敛到了较稳健的纳什均衡状态,同时深入分析了算法的收敛性和性能。