Mar, 2023
零和马尔可夫博弈强化学习的一种新政策迭代算法
A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum Markov Games
Anna Winnicki, R. Srikant
TL;DR本文提出了一种对于零和马尔可夫游戏的学习策略 ——lookahead 策略,该策略使用简单的 naive policy iteration,在计划阶段实现高效的收敛,进一步阐述了在使用我们的算法进行计算规划时的时间复杂度和样本复杂度界限。