ICLROct, 2022

带不确定性的规划:模型基强化学习中的深度探索

TL;DR本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中,规避了标准方法的不确定性传播,并通过 MuZero 算法进行了评估验证。 实验结果表明,可以通过不确定性规划实现有效的深度探索,从而显著提高样本效率。