基于贝叶斯的在线规划

Jun, 2024

A Bayesian Approach to Online Planning

Nir Greshler, David Ben Eli, Carmel Rabinovitz, Gabi Guetta, Liran Gispan...

TL;DR蒙特卡洛树搜索和神经网络的结合彻底改变了在线规划。我们提出了一种贝叶斯规划方法，通过经典元推理文献中的思想，利用神经网络输出的不确定性估计来改善规划。我们在可能行动的树中提出了一种基于汤普森抽样的搜索算法，并证明了有限时间的贝叶斯后悔上界，同时提出了适用于树的 Bayes-UCB 方法的变体。实验证明，在 ProcGen Maze 和 Leaper 环境中，当不确定性估计是准确的但神经网络输出不准确时，我们的贝叶斯方法在搜索树方面更加有效。此外，我们调查了流行的不确定性估计方法是否足够准确，能否带来重要的规划收益。

Abstract

The combination of monte carlo tree search and neural networks has revolutionized online planning. As neural network approximations are often imperfect, we ask whether →

monte carlo tree search neural networks uncertainty estimates bayesian planning thompson sampling

发现论文，激发创造

蒙特卡罗树搜索中的贝叶斯推断

本文介绍了一种基于贝叶斯框架与高斯近似算法的 Monte-Carlo Tree Search 方法，旨在更准确地估算节点价值和不确定性，并证明了该方法的在策略和非策略情境下的收敛性和实现的优越性。

Mar, 2012

贝叶斯探索网络

贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法，但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战，通过在一维贝尔曼算子中建模不确定性，引入贝叶斯探索网络 (BEN)，通过正态化流来建模贝尔曼算子中的不确定性，并通过变分推断来建模知识性不确定性，实验结果表明，BEN 可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。

Aug, 2023

使用基于样本的搜索实现高效的贝叶斯自适应强化学习

本研究提出了一种基于蒙特卡洛树搜索 (Monte-Carlo tree search) 的可行的、基于样本的近似贝叶斯最优规划方法，它避免了在搜索树中昂贵的应用贝叶斯规则，通过从当前信念中懒惰地抽样模型。实验证明，与以前的贝叶斯模型为基础的 RL 算法相比，在几个知名的基准问题上，我们的方法表现出了明显的优势。

May, 2012

学习使用不确定拓扑地图进行规划

本文采用一种数据驱动的策略和基于图像的规划，应用于 3D 环境中的导航系统，通过机器学习方法实现了图像哈希表上的最短路径规划，比传统符号算法更优秀。

Jul, 2020

通过本地不确定性实现汤普森抽样

本文提出了一种新的基于概率建模的 Thompson sampling 框架，使用本地潜在变量不确定性来采样均值回报，并采用变分推理来近似本地变量的后验分布，在八个上下文匹配基准数据集上进行了实验，表明由本地不确定性引导的 Thompson 采样实现了最先进的性能，同时具有较低的计算复杂度。

Oct, 2019

学习即规划：通过蒙特卡罗树搜索实现接近 Bayes 最优强化学习

使用前向搜索稀疏采样算法（FSSS）可以实现接近 Bayes 最优行为，从而使用 Monte-Carlo 树搜索算法有效地处理状态空间极大或无限大的马尔可夫决策过程（MDPs）。

Feb, 2012

深度学习不确定性估计的通用框架

提出了一种用基于贝叶斯信任网络和蒙特卡罗采样的方法来对神经网络进行不确定性估计，这个方法具有与神经网络结构和任务无关，不需要优化进程的更改，能够应用于已经训练好的结构，有效地提高了准确性。

Jul, 2019

自适应优化方法实现神经网络的贝叶斯实用学习

提出了一个新的框架，基于自适应优化算法（如 AdaGrad 和 Adam）的新的概率解释，估计神经网络权重的后验分布，并通过实验证明了学习到的不确定性能够正确地与权重的预测能力相关，并且在多臂赌博机的 Thompson 抽样设置中与标准方法的表现相比，Badam 方法的推导不确定性估计的质量是足够好的。

Nov, 2018

用于马尔可夫决策过程在线规划的简单遗憾优化

本针对 MDPs 中的在线规划问题，提出一种基于 MCTS2e 的新型蒙特卡罗树搜索算法 BRUE，其能够以指数速度降低简单遗憾和错误概率，并配合遗忘学习进行推广。结果表明，BRUE 不仅提供了优越的性能保证，而且在实践中也非常有效。

Jun, 2012

通过最优输运传播的蒙特卡洛树搜索

本论文介绍了一种新的备份策略用于 Monte-Carlo 树搜索 (MCTS)，适用于高度随机和部分可观察的马尔可夫决策过程。我们采用概率方法，将值节点和动作值节点建模为高斯分布。我们引入了一种新的备份运算符，将值节点计算为其动作值子节点的 Wasserstein 重心，从而将估计的不确定性传播到根节点。我们研究了当使用 L^1-Wasserstein 重心与 α- 分歧的新的组合时，我们的新备份运算符，通过与广义平均备份运算符的显著联系。我们将概率备份运算符与基于乐观选择和汤普森抽样的两种采样策略相结合，得到了我们的 Wasserstein MCTS 算法。我们在几个随机和部分可观察环境上提供了渐近收敛到最优策略的理论保证，并进行了实证评估，结果表明我们的方法优于相关基准。

Sep, 2023