Feb, 2024

离线约束强化学习的低秩 MDP 原始 - 对偶算法

TL;DR该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法,该算法在折扣无限时间段设置中具有较低的样本复杂度,且支持离线约束强化学习设置。