Feb, 2021
低秩 MDP 中无模型表示学习与探索
Model-free Representation Learning and Exploration in Low-rank MDPs
Aditya Modi, Jinglin Chen, Akshay Krishnamurthy, Nan Jiang, Alekh Agarwal
TL;DR本文提出首个针对低秩 MDP 的无模型表示学习算法,该算法采用了新的极小极大表示学习目标,并将其与探索策略相互交织,以无奖惩的方式覆盖状态空间,从而具有可证明的样本效率和适应复杂环境的能力。