Feb, 2021

低秩 MDP 中无模型表示学习与探索

TL;DR本文提出首个针对低秩 MDP 的无模型表示学习算法,该算法采用了新的极小极大表示学习目标,并将其与探索策略相互交织,以无奖惩的方式覆盖状态空间,从而具有可证明的样本效率和适应复杂环境的能力。