Mar, 2023

低秩MDPs下无奖励强化学习的样本复杂度改进

TL;DR本文研究了低秩MDP模型下无奖励强化学习及其算法。首先推导出该问题的最低样本复杂度下限,并提出了 RAFFLE 算法,通过无奖励探索可以在样本复杂度显著改善下找到epsilon-最优策略和epsilon-准确的系统识别。最后,提出了 RAFFLE 的规划算法,可学习到近乎准确的表示,是该环境下首个具有表示学习保证的算法。