Sep, 2023

通过最优输运传播的蒙特卡洛树搜索

TL;DR本论文介绍了一种新的备份策略用于 Monte-Carlo 树搜索 (MCTS),适用于高度随机和部分可观察的马尔可夫决策过程。我们采用概率方法,将值节点和动作值节点建模为高斯分布。我们引入了一种新的备份运算符,将值节点计算为其动作值子节点的 Wasserstein 重心,从而将估计的不确定性传播到根节点。我们研究了当使用 L^1-Wasserstein 重心与 α- 分歧的新的组合时,我们的新备份运算符,通过与广义平均备份运算符的显著联系。我们将概率备份运算符与基于乐观选择和汤普森抽样的两种采样策略相结合,得到了我们的 Wasserstein MCTS 算法。我们在几个随机和部分可观察环境上提供了渐近收敛到最优策略的理论保证,并进行了实证评估,结果表明我们的方法优于相关基准。