部分可观察马尔可夫决策过程的定性分析

Sep, 2009

部分可观察马尔可夫决策过程的定性分析

Qualitative Analysis of Partially-observable Markov Decision Processes

Krishnendu Chatterjee, Laurent Doyen, Thomas A. Henzinger

TL;DR本文针对部分可观察 Markov 决策过程（POMDPs）和 ω 正则目标，研究了基于观测的策略，并解决了定性分析问题的计算复杂度和最优内存界限。

Abstract

We study observation-based strategies for partially-observable Markov decision processes (POMDPs) with omega-regular objectives. An observation-based strategy relies on partial information about the history of a

observation-based strategies partially-observable markov decision processes (pomdps)omega-regular objectives qualitative analysis computational complexity

发现论文，激发创造

关于具有 ω- 正则目标的部分可观察马尔可夫决策过程的可决定性

本文他认为配对绘图监测问题的 POMDP 用内存 Markov 实现的部分角色并支持 parity 主题，并讲达了所有 parity 主题的重置分析问题及可编码重置分析命令为有限内存内存固定质量。

Sep, 2013

机器人应用中基于时间逻辑规范的 POMDP 定性分析

本文探讨了具有标准框架的 POMDPs，以模拟现实世界中存在的不确定性，以及时间逻辑规范。我们研究了帕里目标下的 POMDP 定性分析问题，该问题在理论上难以计算，但我们提出了解决该问题的实用方法，并在许多机器人应用的已知示例中使用了我们的实现。

Sep, 2014

马尔可夫决策过程的多目标模型检查

提供了一种高效的算法来解决多目标模型检验问题，该算法通过随机化策略来实现，在多项式时间内计算了一组 ω -regular 性质的近似 Pareto 曲线，并使用图论方法分析了一些定性多目标模型检验问题。

Oct, 2008

具有不完美信息的 Omega 正则博弈算法

本文研究了基于观察的策略在具有 ω- 正则目标的图上的两人回合制游戏中的应用。我们提出了计算状态集合的固定点算法，解决了玩家使用确定性和随机化观察策略进行游戏的问题。

Jun, 2007

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

POMDP 中最优奖励应观察什么？

针对部分可观察的马尔可夫决策问题 (POMDPs)，本文研究了一种新颖的最优可观测性问题 (OOP)：如何在固定预算下选择一种代理人的传感器，使其达到预期目标。研究表明该问题在一般情况下是不可判定的，而考虑位置策略时是可判定的。我们提出了两种算法解决可判定的 OOP 问题：一种基于 M 的潜在马尔可夫决策过程的最优策略，另一种基于 SMT 的参数合成。我们对 POMDP 文献中的典型示例的变体进行了实验，并获得了有希望的结果。

May, 2024

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

部分可观察马尔可夫决策过程的基于点的模型检验方法

提出了一种在部分可观察的马尔可夫决策过程（POMDP）中实现满足线性时间逻辑公式的策略的方法，该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率，并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域，并为最终策略的性能提供了强大的边界。

Jan, 2020

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

无模型强化学习中的 Omega-Regular 目标

以非模式的方式提供了《ӏ–正则》监控下的最终快模满觉目标。

Sep, 2018