Oct, 2022

零和马尔可夫博弈中政策优化的更快收敛

TL;DR本文提出了一种基于 OMWU 方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。