Mar, 2022

多项式时间的无界强化学习:静态策略的威力

TL;DR本文提出了第一个针对有限 MDP 多项式时间算法,具有独立于计划时间的后悔范围,并通过一系列的新结构引理,建立了稳定性和专注性,提高了 MDP 的近似能力和性能。