May, 2023

延迟、组合和部分匿名回报的强化学习

TL;DR本文研究了具有延迟、组合和部分匿名奖励反馈的无限期望回报马尔可夫决策过程,并提出了名为 DUCRL2 的算法来获得近似最优策略,并证明其达到了类似于 ODS 的遗憾界。