无折扣 POMDP 中带有可达性目标的声音启发搜索值迭代

Jun, 2024

无折扣 POMDP 中带有可达性目标的声音启发搜索值迭代

Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives

Qi Heng Ho, Martin S. Feather, Federico Rossi, Zachary N. Sunberg, Morteza Lahijanian

TL;DR该研究论文探讨了部分可观测马尔可夫决策过程（POMDPs）中的最大可达性概率问题（MRPP），研究了一种基于点估计方法和基于试探性启发式搜索的新算法，解决了处理无限时域问题中循环的问题，并在实验评估中表现出优越性。

Abstract

partially observable markov decision processes (POMDPs) are powerful models for sequential decision making under transition and observation uncertainties. This paper studies the challenging yet important problem in POMDPs known as the (indefinite-horizon) →

partially observable markov decision processes maximal reachability probability problem point-based methods trial-based heuristic search belief space

发现论文，激发创造

带安全可达目标的 POMDP 有界策略合成

本文研究了带安全可达性目标的部分可观测马尔可夫决策过程（POMDPs），提出了一种基于目标约束信念空间和符号约束的方法来合成能实现安全可达性目标的策略，并通过实验结果表明，该方法能够在大量信念空间中高效地搜索有效策略。

Jan, 2018

基于点的 POMDP 算法：改进分析与实现

该论文讲述了针对基于点的 POMDP 值迭代算法的复杂度界限，提出了一个基于折扣可达性并结合历史和维度的新界限，并介绍了改进的启发式搜索值迭代算法的最新进展。

Jul, 2012

POMDP 中的最优成本几乎确定可达性

本文研究部分可观察马尔可夫决策过程 (POMDPs)，带有一组目标状态并且每个转移都有一个整数成本。研究的最优化目标是在确保（概率为 1）几乎达到目标集时最小化预期总成本。我们证明，对于整数成本，近似最优成本是不可判定的。对于正成本，我们的结果有：（i）我们建立了最优成本的匹配下限和上限，上限是双指数；（ii）我们表明，近似最优成本的问题是可判定的，并且提出了建立在具有有限时间段目标的 POMDP 算法上的近似算法。虽然这个算法的最坏运行时间是双指数的，但我们还介绍了算法的有效停止标准，并实验性地表明它在许多有意义的示例中表现良好。

Nov, 2014

POMDP 中的期望总奖励欠估计算

本文研究了如何通过计算部分可观察马尔可夫决策过程的总期望奖励的下界来解决通常难以解决的问题，提供了两种技术：使用良好策略的简单技术和使用概率之间的最小移位的更高级别的技术。同时，本文还使用混合整数线性规划找到这样最小概率移位，并在实验中表明了这些技术的可扩展性和其提供的紧缩的下界值。

Jan, 2022

无记忆随机策略优化在无限时域 POMDP 中的几何

本研究考虑了有限状态和动作空间的无穷时部分观察到的马尔可夫决策问题中，根据折扣或平均收益准则找到最佳的无记忆随机策略并描述了优化问题作为可行状态 - 动作频率空间中的线性优化问题并使用了多项式优化的最大化奖励来解决导航问题。

Oct, 2021

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

部分可观察马尔可夫决策过程的基于点的模型检验方法

提出了一种在部分可观察的马尔可夫决策过程（POMDP）中实现满足线性时间逻辑公式的策略的方法，该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率，并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域，并为最终策略的性能提供了强大的边界。

Jan, 2020

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

不确定性下的风险规避规划

本文提出基于有限状态控制器的有界策略迭代方法，通过标准的凸优化算法设计出完全风险规避的 POMDP 最优策略，并针对给定的记忆预算和优化指标对控制器进行修改以减小一致风险。

Sep, 2019

在线随机情况规划的展开策略

部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题，并提出了两种领域独立的启发式算法，一种基于经典规划中著名的 h_add 启发式算法，另一种在信念空间中计算并考虑信息价值。

Oct, 2023