Feb, 2023

可预测的 MDP 抽象用于非监督式模型基础强化学习

TL;DR本研究提出了一种可预判马尔可夫决策过程抽象的方法,通过无监督学习在训练模型时进行转换,使得模型的学习变得更加容易和精确,从而实现强大的基于模型的规划或基于模型的强化学习,已在多项基准环境中证明了其较先前的无监督模型训练方法具有显著的改进。