Jan, 2023

具有平均回报目标的随机博弈中的分散式无模型强化学习

TL;DR本文介绍了一个针对零和博弈中基于无限目标平均报酬的分散式学习的无模型算法,称为 Decentralized Optimistic Nash Q-Learning (DONQ-learning),该算法能够获得 $T^{3/4}$ 阶数的高概率次线性遗憾和 $T^{2/3}$ 阶数的次线性期望遗憾。与以往的相关工作相比,该算法具有低计算复杂度和低内存空间要求。