May, 2023

BetaZero: 使用学习逼近的置信状态规划长时程 POMDPs

TL;DR介绍一种基于准确置信模型的BetaZero算法,该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策,解决了部分可观测领域的挑战,并在地质勘探等现实任务中表现出色。