Jun, 2024

基于贝叶斯的在线规划

TL;DR蒙特卡洛树搜索和神经网络的结合彻底改变了在线规划。我们提出了一种贝叶斯规划方法,通过经典元推理文献中的思想,利用神经网络输出的不确定性估计来改善规划。我们在可能行动的树中提出了一种基于汤普森抽样的搜索算法,并证明了有限时间的贝叶斯后悔上界,同时提出了适用于树的 Bayes-UCB 方法的变体。实验证明,在 ProcGen Maze 和 Leaper 环境中,当不确定性估计是准确的但神经网络输出不准确时,我们的贝叶斯方法在搜索树方面更加有效。此外,我们调查了流行的不确定性估计方法是否足够准确,能否带来重要的规划收益。