Mar, 2023

零和马尔可夫博弈强化学习的一种新政策迭代算法

TL;DR本文提出了一种对于零和马尔可夫游戏的学习策略 ——lookahead 策略,该策略使用简单的 naive policy iteration,在计划阶段实现高效的收敛,进一步阐述了在使用我们的算法进行计算规划时的时间复杂度和样本复杂度界限。