Jun, 2023

两人零和马尔可夫博弈的极小极大 Q - 学习的有限时间分析:切换系统方法

TL;DR本文旨在研究应用于两人零和马尔科夫博弈中的 Q-learning 算法的有限时间分析。