Feb, 2024

学习具有不确定性感知的时间延续动作

TL;DR通过使用ensemble方法,我们提出了一种名为Uncertainty-aware Temporal Extension(UTE)的新算法,它能够准确测量在行为扩展期间的不确定性,这使得策略可以在探索和不确定性规避之间做出有针对性的选择,从而有效地提高了策略学习的效率。