POMDP 中最优奖励应观察什么？

May, 2024

What should be observed for optimal reward in POMDPs?

Alyzia-Maria Konsta, Alberto Lluch Lafuente, Christoph Matheja

TL;DR针对部分可观察的马尔可夫决策问题 (POMDPs)，本文研究了一种新颖的最优可观测性问题 (OOP)：如何在固定预算下选择一种代理人的传感器，使其达到预期目标。研究表明该问题在一般情况下是不可判定的，而考虑位置策略时是可判定的。我们提出了两种算法解决可判定的 OOP 问题：一种基于 M 的潜在马尔可夫决策过程的最优策略，另一种基于 SMT 的参数合成。我们对 POMDP 文献中的典型示例的变体进行了实验，并获得了有希望的结果。

Abstract

partially observable markov decision processes (POMDPs) are a standard model for agents making decisions in uncertain environments. Most work on POMDPs focuses on synthesizing strategies based on the available capabilities. However, system designers can often control an agent's observa

partially observable markov decision processes optimal observability problem sensors undecidable algorithms

发现论文，激发创造

机器人中的部分可观察马尔可夫决策过程：综述

这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程（POMDP）的数学模型和算法，分析它们的特点，并提供适用的决策任务的关键任务特性。

Sep, 2022

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

具有后见可观性的 POMDP 学习具有高效样本利用率

本文针对传统 POMDP 学习在简单环境下的效率问题，提出了一种新的算法 HOMDP，并在考虑了过去的观测维度后有效地降低了算法的计算复杂度。

Jan, 2023

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

部分可观测环境中的离线策略评估

该论文研究了部分可观察环境下的强化学习离线策略评估的问题，针对部分可观察的马尔可夫决策过程（POMDPs）建立了离线策略评估的模型，并在新模型下对 POMDPs 进行了更准确的评估并证明了重要性采样等传统方法的局限性。

Sep, 2019

POMDP 中的最优成本几乎确定可达性

本文研究部分可观察马尔可夫决策过程 (POMDPs)，带有一组目标状态并且每个转移都有一个整数成本。研究的最优化目标是在确保（概率为 1）几乎达到目标集时最小化预期总成本。我们证明，对于整数成本，近似最优成本是不可判定的。对于正成本，我们的结果有：（i）我们建立了最优成本的匹配下限和上限，上限是双指数；（ii）我们表明，近似最优成本的问题是可判定的，并且提出了建立在具有有限时间段目标的 POMDP 算法上的近似算法。虽然这个算法的最坏运行时间是双指数的，但我们还介绍了算法的有效停止标准，并实验性地表明它在许多有意义的示例中表现良好。

Nov, 2014

朝着在 POMDP 中使用完全可观察策略

本文提出了基于多模式信念的偏差可观察马尔可夫决策过程 (POMDP) 的解决方法，该方法基于全可观察版本的策略，并定义了一个基于价值函数的混合值函数，可以使用相应的贪心策略解决 POMDP。作者发展了必要的数学框架，并介绍了在 Reconnaissance Blind TicTacToe 任务上建立的基准测试。在此基准测试中，我们展示了多模式策略胜过忽略多模式存在的策略。

Jul, 2022

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

面向不确定性的机器人强鲁棒规划中的 POMDP-lite

本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite，使用该方法解决机器人任务时计算复杂度减小，我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型，效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。

Feb, 2016

不精确概率遇上部分可观测性：强健 POMDPs 的游戏语义

部分可观察马尔可夫决策过程（POMDPs）依赖于概率分布的精确性，而鲁棒 POMDPs 通过定义不精确的概率（称为不确定性集）来缓解这一问题。本研究通过展示：1）不同的不确定性集假设会影响最优策略和价值；2）RPOMDPs 具有部分可观察随机博弈（POSG）语义；以及 3）相同的 RPOMDP 在不同的假设下会导致语义上不同的 POSG，从而产生不同的策略和价值，从而扩展了 RPOMDP 的理论理解。这些新颖的 RPOMDPs 语义为广泛研究的 POSG 模型提供了实际结果，具体而言，我们展示了纳什均衡的存在性。最后，我们使用这些语义对现有的 RPOMDP 文献进行分类，澄清了这些现有研究在哪些不确定性假设下进行。

May, 2024