连续时间 POMDP 的近似控制

Feb, 2024

Approximate Control for Continuous-Time POMDPs

Yannick Eich, Bastian Alt, Heinz Koeppl

TL;DR该研究提出了一个用于具有离散状态和动作空间的连续时间的部分可观察系统的决策框架。通过近似方法来处理大状态空间下的最优决策问题，其中高维过滤分布通过投影到参数化分布族进行了近似，结合完全可观察系统的控制启发式方法获得了可扩展的策略。在多个部分观测系统上，包括队列系统和化学反应网络，验证了该方法的有效性。

Abstract

This work proposes a decision-making framework for partially observable systems in continuous time with discrete state and action spaces. As optimal decision-making becomes intractable for large state spaces we e

decision-making framework partially observable systems continuous time approximation methods scalable policy

发现论文，激发创造

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

无限时间视角下基于部分观测的最坏情况控制与学习

本文研究了安全关键的物理系统所需的控制策略，通过建模系统中的不确定性和模型干扰，提出了一种近似控制和学习框架，并对其进行了数学分析和算法设计。

Mar, 2023

逻辑约束部分可观测多智能体马尔科夫决策过程的最优控制

本文讲述了一种基于特定约束的自主系统与多智能体的优化控制方法，以实现其最大化收益并同时满足时间逻辑约束的概率足够高。

May, 2023

带有线性时态逻辑规约的 POMDPs 的随机有限状态控制

本研究提出了一种基于 POMDPs 的任意时间算法，通过在线性时态逻辑（LTL）清单约束条件下最大化满足概率来合成次优随机有限状态控制器（sFSCs），并通过机器人导航案例研究表明了该方法的有效性。

Jan, 2020

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

部分可观察马尔可夫决策过程的基于点的模型检验方法

提出了一种在部分可观察的马尔可夫决策过程（POMDP）中实现满足线性时间逻辑公式的策略的方法，该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率，并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域，并为最终策略的性能提供了强大的边界。

Jan, 2020

带有性能保证的 ρ-POMDP 中的测量简化

该研究论文介绍了一种有效的决策制定方法，通过对高维观测空间进行划分，并利用这种划分提出了分析边界，以求得期望的信息论奖励，进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善，在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。

Sep, 2023

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014

具有连续状态、动作和观测空间的 POMDP 在线算法

本文探讨了解决离散状态空间和连续状态、动作和观测空间间问题的双重渐进扩展法，并提出和评估了两种利用加权粒子滤波克服此问题的新算法 POMCPOW 和 PFT-DPW，并通过仿真结果表明这些修改可以成功地解决以前的问题。

Sep, 2017