带不确定性的规划：模型基强化学习中的深度探索

Oct, 2022

带不确定性的规划：模型基强化学习中的深度探索

Planning with Uncertainty: Deep Exploration in Model-Based Reinforcement Learning

Yaniv Oren, Matthijs T. J. Spaan, Wendelin Böhmer

TL;DR本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中，规避了标准方法的不确定性传播，并通过MuZero算法进行了评估验证。实验结果表明，可以通过不确定性规划实现有效的深度探索，从而显著提高样本效率。

Abstract

Deep model-based reinforcement learning (RL) has shown super-human performance in many challenging domains. Low sample efficiency and limited exploration remain as leading obstacles in the field, however. In this