DESPOT: 在线 POMDP 规划与正则化

Sep, 2016

DESPOT: Online POMDP Planning with Regularization

Nan Ye, Adhiraj Somani, David Hsu, Wee Sun Lee

TL;DR该研究提出了一种利用确定性稀疏部分可观察树 (DESPOT) 算法进行在线不确定性规划的方法，其通过随机采样场景来紧凑地捕获所有策略的执行，得到的最佳策略接近最优，并具有一定的遗憾，该算法已成功应用于实时汽车控制。

Abstract

The partially observable markov decision process (POMDP) provides a principled general framework for planning under uncertainty, but solving POMDPs optimally is computationally intractable, due to the "curse of d

partially observable markov decision process planning under uncertainty determinized sparse partially observable tree online planning regret bound

发现论文，激发创造

CAR-DESPOT: 机器人在混杂环境中基于因果推断的在线 POMDP 规划

本文提出了使用因果建模和推理的新型持续时间在线部分可观测树规划器的因果知情扩展，以消除未测量混淆变量所引起的误差。同时，我们提出了一种离线学习因果模型的方法，用于规划。我们在一个具有未观察到混淆因素的玩具问题上评估了我们的方法，并表明所学习的因果模型非常准确，而我们的规划方法比 AR-DESPOT 更加抗干扰，并产生更高性能的策略。

Apr, 2023

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014

POMDP 中的策略指导的逻辑规范学习：归纳逻辑编程方法

从 POMDP 执行的痕迹中学习得到高质量的启发式方法，通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范，以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。

Feb, 2024

面向不确定性的机器人强鲁棒规划中的 POMDP-lite

本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite，使用该方法解决机器人任务时计算复杂度减小，我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型，效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。

Feb, 2016

在线随机情况规划的展开策略

部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题，并提出了两种领域独立的启发式算法，一种基于经典规划中著名的 h_add 启发式算法，另一种在信念空间中计算并考虑信息价值。

Oct, 2023

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

一个惊人简单的连续行为 POMDP 求解器：基于策略树的惰性交叉熵搜索

本研究提出了一种名为 LCEOPT 的简单在线 POMDP 求解器，通过使用迭代更新策略的分布，从而能够更好地解决具有连续动作空间的问题。

May, 2023

约束层次蒙特卡罗信念状态规划

优化在约束部分可观察马尔可夫决策过程中的规划，使用层次分解和在线基于搜索的约束选项信念树搜索算法来扩展大型机器人领域中的规划问题。

Oct, 2023

BetaZero: 使用学习逼近的置信状态规划长时程 POMDPs

介绍一种基于准确置信模型的 BetaZero 算法，该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策，解决了部分可观测领域的挑战，并在地质勘探等现实任务中表现出色。

May, 2023