带有线性时态逻辑规约的 POMDPs 的随机有限状态控制

Jan, 2020

带有线性时态逻辑规约的 POMDPs 的随机有限状态控制

Stochastic Finite State Control of POMDPs with LTL Specifications

Mohamadreza Ahmadi, Rangoli Sharan, Joel W. Burdick

TL;DR本研究提出了一种基于 POMDPs 的任意时间算法，通过在线性时态逻辑（LTL）清单约束条件下最大化满足概率来合成次优随机有限状态控制器（sFSCs），并通过机器人导航案例研究表明了该方法的有效性。

Abstract

Partially observable Markov decision processes (pomdps) provide a modeling framework for autonomous decision making under uncertainty and imperfect sensing, e.g. robot manipulation and self-driving cars. However, optimal control of →

pomdps sub-optimal stochastic finite state controllers linear temporal logic optimization robot navigation

发现论文，激发创造

使用参数合成对 POMDP 的宽松有限状态控制器

研究了针对给定规范证明正确的、用于部分可观察的马尔可夫决策过程（POMDPs）的有限状态控制器（FSCs）。通过将在 POMDPs 上计算（随机）FSCs 转化为参数化 Markov 链（pMCs）的合成，许多规范下的正确构造 FSCs 可以得到计算，并为其提供了工具。实验结果显示与已知的 POMDP 求解器性能相当。

Oct, 2017

机器人应用中基于时间逻辑规范的 POMDP 定性分析

本文探讨了具有标准框架的 POMDPs，以模拟现实世界中存在的不确定性，以及时间逻辑规范。我们研究了帕里目标下的 POMDP 定性分析问题，该问题在理论上难以计算，但我们提出了解决该问题的实用方法，并在许多机器人应用的已知示例中使用了我们的实现。

Sep, 2014

逻辑约束部分可观测多智能体马尔科夫决策过程的最优控制

本文讲述了一种基于特定约束的自主系统与多智能体的优化控制方法，以实现其最大化收益并同时满足时间逻辑约束的概率足够高。

May, 2023

POMDP 有限状态控制器的安全策略改进

本文研究了用于局部可观察马尔可夫决策问题 (POMDP) 的安全策略改进 (SPI) 方法，该方法假定可以访问历史数据和行为策略。作者提出基于有限状态控制器和有限记忆计算的离线策略改进方法，并在多项基准实验中证明了其可行性和有效性。

Jan, 2023

连续时间 POMDP 的近似控制

该研究提出了一个用于具有离散状态和动作空间的连续时间的部分可观察系统的决策框架。通过近似方法来处理大状态空间下的最优决策问题，其中高维过滤分布通过投影到参数化分布族进行了近似，结合完全可观察系统的控制启发式方法获得了可扩展的策略。在多个部分观测系统上，包括队列系统和化学反应网络，验证了该方法的有效性。

Feb, 2024

部分可观察马尔可夫决策过程的基于点的模型检验方法

提出了一种在部分可观察的马尔可夫决策过程（POMDP）中实现满足线性时间逻辑公式的策略的方法，该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率，并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域，并为最终策略的性能提供了强大的边界。

Jan, 2020

不确定环境下带概率满足保证的 LTL 控制

本文提出了一种使用线性时态逻辑公式生成机器人控制策略的方法，重点考虑了噪声传感器和执行器带来的影响，将其转换为马尔可夫决策过程来解决，包括案例分析。

Apr, 2011

一种基于学习的方法，用于控制合成线性时间逻辑规范的马尔可夫决策过程

使用学习理论中的技术，通过构建包含确定性 Rabin 自动机的乘积 MDP，其奖励函数来源于 Rabin 自动机的接受条件，即可合成满足线性时态逻辑（LTL）规范的控制策略，该方法在交通控制案例研究中证明可以产生合理的控制策略，即使无法保证满足 LTL 规范。

Sep, 2014

Dec-POMDP 中的平衡 Monte-Carlo 搜索

本文介绍了一种基于模拟的 POMDP 求解器来构建 Dec-POMDP 的有限状态控制器节点以及一种相关的方法来启发式地导出初始 FSC，称为 MC-JESP，实验证明其竞争力甚至优于使用显式模型的许多离线方法

May, 2023

不确定性下的风险规避规划

本文提出基于有限状态控制器的有界策略迭代方法，通过标准的凸优化算法设计出完全风险规避的 POMDP 最优策略，并针对给定的记忆预算和优化指标对控制器进行修改以减小一致风险。

Sep, 2019