Aug, 2023

无模型改进的零和马尔科夫博弈的高效样本算法

TL;DR为了解决两个玩家零和马尔可夫博弈问题,在多智能体强化学习的理论研究中引起了越来越多的关注。通过提出一种无模型的基于阶段的Q学习算法,我们展示了该算法能够与最佳的有模型算法达到相同的样本复杂度,进而首次证明了无模型算法在与模型有关的$H$上的依赖性上能够达到相同的最优性。