基于前向仿真的机器人探索规划

Feb, 2015

Planning for robotic exploration based on forward simulation

Mikko Lauri, Risto Ritala

TL;DR本研究针对部分已知环境探索问题，以信息论目标函数为目标，将其视为部分可观察马尔可夫决策过程 (POMDP)，并通过 open-loop 逼近算法求解。提出了新的互信息采样逼近方法用于移动机器人，结果显示 POMDP 探索算法在某些情况下可以提高性能。

Abstract

We address the problem of controlling a mobile robot to explore a partially known environment. The robot's objective is the maximization of the amount of information collected about the environment. We formulate the problem as a partially observable Markov decision process (

mobile robot exploration pomdp information-theoretic objective frontier exploration

发现论文，激发创造

机器人中的部分可观察马尔可夫决策过程：综述

这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程（POMDP）的数学模型和算法，分析它们的特点，并提供适用的决策任务的关键任务特性。

Sep, 2022

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

带拓展空间 POMDP 规划的人群意图感知导航

本文提出了一种混合在线部分可观察马尔可夫决策过程规划系统，针对多模态不确定性对自主导航的影响。通过使用多查询运动规划和在线 POMDP 求解器，我们实现了更加灵活和高效的实时方法，从而更好地解决了密集人群和障碍物之间的自主导航问题，并获得了更高的安全性和效率。

Jun, 2022

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

未知环境中的映射预测运动规划

本研究提出结合地图预测和运动规划的统一方法，用于安全、高效自主导航未知环境中的动态约束机器人，避免了传统方法在选择中间目标时依赖于启发式方法。通过使用机器人对其环境的观测结果作为背景信息，我们设计了一种基于数据驱动的地图预测方法，将其作为规划轨迹的依据，从而实现了不依赖于边界选择的运动规划。实验表明，相对于朴素的边界追赶方法，本地图预测运动规划策略在减少轨迹所需时间方面有明显改善，并且与使用更复杂的边界选择启发式方法的方法相比，具有更短的计算时间。

Oct, 2019

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014

带安全可达目标的 POMDP 有界策略合成

本文研究了带安全可达性目标的部分可观测马尔可夫决策过程（POMDPs），提出了一种基于目标约束信念空间和符号约束的方法来合成能实现安全可达性目标的策略，并通过实验结果表明，该方法能够在大量信念空间中高效地搜索有效策略。

Jan, 2018

多智能体场景下的序列规划框架

本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上，将代理模型纳入到状态空间中，使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念，并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察，但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。

Sep, 2011

POMDP 中的 Task-Guided IRL

本文提出了一种新算法，用于部分可观测的马尔可夫决策过程中的反向强化学习，可增加数据效率并减少信息不对称，通过融合时间逻辑表达式作为先验信息，使用因果熵而不是熵，防止算法复杂度的通用来源，有效地解决了非凸问题，并在高级 Unity 仿真器中进行了实验，结果表明该算法具有较高的性能。

Dec, 2022

具有自我改进模拟器的 POMDP 在线规划

本文介绍了一种基于在线学习的、可提高计划的效率的方法，该方法通过自适应决策确定使用哪个模拟器，以实现计划过程中的精度与速度之间的平衡。实验结果表明，该方法在两个大领域中与 POMCP 集成后可以使计划效率得到提高。

Jan, 2022