面向不确定性的机器人强鲁棒规划中的 POMDP-lite

Feb, 2016

面向不确定性的机器人强鲁棒规划中的 POMDP-lite

POMDP-lite for Robust Robot Planning under Uncertainty

Min Chen, Emilio Frazzoli, David Hsu, Wee Sun Lee

TL;DR本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite，使用该方法解决机器人任务时计算复杂度减小，我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型，效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。

Abstract

The partially observable markov decision process (POMDP) provides a principled general model for planning under uncertainty. However, solving a general POMDP is computationally intractable in the worst case. This paper introduces →

partially observable markov decision process pomdp-lite bayesian reinforcement learning robotic tasks computationally tractable

发现论文，激发创造

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

机器人中的部分可观察马尔可夫决策过程：综述

这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程（POMDP）的数学模型和算法，分析它们的特点，并提供适用的决策任务的关键任务特性。

Sep, 2022

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

具有后见可观性的 POMDP 学习具有高效样本利用率

本文针对传统 POMDP 学习在简单环境下的效率问题，提出了一种新的算法 HOMDP，并在考虑了过去的观测维度后有效地降低了算法的计算复杂度。

Jan, 2023

BetaZero: 使用学习逼近的置信状态规划长时程 POMDPs

介绍一种基于准确置信模型的 BetaZero 算法，该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策，解决了部分可观测领域的挑战，并在地质勘探等现实任务中表现出色。

May, 2023

CAR-DESPOT: 机器人在混杂环境中基于因果推断的在线 POMDP 规划

本文提出了使用因果建模和推理的新型持续时间在线部分可观测树规划器的因果知情扩展，以消除未测量混淆变量所引起的误差。同时，我们提出了一种离线学习因果模型的方法，用于规划。我们在一个具有未观察到混淆因素的玩具问题上评估了我们的方法，并表明所学习的因果模型非常准确，而我们的规划方法比 AR-DESPOT 更加抗干扰，并产生更高性能的策略。

Apr, 2023

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

在线随机情况规划的展开策略

部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题，并提出了两种领域独立的启发式算法，一种基于经典规划中著名的 h_add 启发式算法，另一种在信念空间中计算并考虑信息价值。

Oct, 2023