带有线性时态逻辑规约的 POMDPs 的随机有限状态控制
研究了针对给定规范证明正确的、用于部分可观察的马尔可夫决策过程(POMDPs) 的有限状态控制器(FSCs)。通过将在 POMDPs 上计算(随机)FSCs 转化为参数化 Markov 链(pMCs)的合成,许多规范下的正确构造 FSCs 可以得到计算,并为其提供了工具。实验结果显示与已知的 POMDP 求解器性能相当。
Oct, 2017
本文探讨了具有标准框架的 POMDPs,以模拟现实世界中存在的不确定性,以及时间逻辑规范。我们研究了帕里目标下的 POMDP 定性分析问题,该问题在理论上难以计算,但我们提出了解决该问题的实用方法,并在许多机器人应用的已知示例中使用了我们的实现。
Sep, 2014
本文研究了用于局部可观察马尔可夫决策问题 (POMDP) 的安全策略改进 (SPI) 方法,该方法假定可以访问历史数据和行为策略。作者提出基于有限状态控制器和有限记忆计算的离线策略改进方法,并在多项基准实验中证明了其可行性和有效性。
Jan, 2023
该研究提出了一个用于具有离散状态和动作空间的连续时间的部分可观察系统的决策框架。通过近似方法来处理大状态空间下的最优决策问题,其中高维过滤分布通过投影到参数化分布族进行了近似,结合完全可观察系统的控制启发式方法获得了可扩展的策略。在多个部分观测系统上,包括队列系统和化学反应网络,验证了该方法的有效性。
Feb, 2024
提出了一种在部分可观察的马尔可夫决策过程(POMDP)中实现满足线性时间逻辑公式的策略的方法,该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率,并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域,并为最终策略的性能提供了强大的边界。
Jan, 2020
本文提出了一种使用线性时态逻辑公式生成机器人控制策略的方法,重点考虑了噪声传感器和执行器带来的影响,将其转换为马尔可夫决策过程来解决,包括案例分析。
Apr, 2011
使用学习理论中的技术,通过构建包含确定性 Rabin 自动机的乘积 MDP,其奖励函数来源于 Rabin 自动机的接受条件,即可合成满足线性时态逻辑(LTL)规范的控制策略,该方法在交通控制案例研究中证明可以产生合理的控制策略,即使无法保证满足 LTL 规范。
Sep, 2014
本文介绍了一种基于模拟的 POMDP 求解器来构建 Dec-POMDP 的有限状态控制器节点以及一种相关的方法来启发式地导出初始 FSC,称为 MC-JESP,实验证明其竞争力甚至优于使用显式模型的许多离线方法
May, 2023
本文提出基于有限状态控制器的有界策略迭代方法,通过标准的凸优化算法设计出完全风险规避的 POMDP 最优策略,并针对给定的记忆预算和优化指标对控制器进行修改以减小一致风险。
Sep, 2019