Jul, 2024

两步极小极大 Q-learning 算法用于双人零和马尔可夫博弈

TL;DR提出了一种有趣的迭代过程来解决两个玩家零和马尔可夫博弈,通过将问题表示为极小极大马尔可夫博弈,并对求解马尔可夫决策问题的两步Q学习算法进行适当修改,理论上获得了所提出迭代过程的有界性。利用随机逼近的结果,理论上获得了所提出的两步极小极大Q学习的几乎必然收敛性,具体而言,在模型信息未知的情况下,该算法以概率1收敛于博弈论最优值。数值模拟证实了所提出算法的有效性和易于实施性。