带有部分后见状态信息的 POMDP 在 RL 中的理论难度与可解性

Jun, 2023

带有部分后见状态信息的 POMDP 在 RL 中的理论难度与可解性

Theoretical Hardness and Tractability of POMDPs in RL with Partial Hindsight State Information

Ming Shi, Yingbin Liang, Ness Shroff

TL;DR本文研究部分可观察马尔科夫决策过程（POMDP），发现除非我们拥有完整的后见状态信息，否则需要指数级的样本复杂度才能实现对 POMDP 的一个 ε- 最优策略解，但有部分 POMDP 分类情况下，其状态信息是足够的，本文提出了新的算法并证实这些算法是近似最优解。

Abstract

partially observable markov decision processes (POMDPs) have been widely applied to capture many real-world applications. However, existing theoretical results have shown that learning in general POMDPs could be

partially observable markov decision processes learning hindsight state information sample complexity algorithms

发现论文，激发创造

具有后见可观性的 POMDP 学习具有高效样本利用率

本文针对传统 POMDP 学习在简单环境下的效率问题，提出了一种新的算法 HOMDP，并在考虑了过去的观测维度后有效地降低了算法的计算复杂度。

Jan, 2023

多观测视角下的样本高效学习 POMDPs

该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究，并提出了一种增强的反馈模型，可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类：多观察揭示 POMDP 和可区分 POMDP，同时这两个子类也放宽了传统的揭示 POMDP 的要求。

Jul, 2023

回顾往事仅为五十之二：基于 MDP 的 POMDP 近似求解器不适合多分辨率信息收集

本论文研究了使用 MDP 求解器解决 POMDP 问题时的局限性，提出了使用多分辨率、预算信息收集方法解决 POMDP 问题的必要性，并给出了一些设计选择。

Apr, 2018

面向不确定性的机器人强鲁棒规划中的 POMDP-lite

本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite，使用该方法解决机器人任务时计算复杂度减小，我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型，效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。

Feb, 2016

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

搜索有限策略空间求解 POMDPs

本文研究部分可观察马尔可夫决策过程（POMDPs）的解决方案，探讨如何从有限状态自动机的限制集合中找到最佳策略，进而展示了通过分支定界法和梯度上升法寻找全局最优确定性策略和局部最优随机策略的优越实验结果。

Jan, 2013

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

部分可观察的强化学习何时不可怕？

该论文介绍了应用于部分可观测的情况下的强化学习模型，探讨了在一些特殊情况下该模型的使用，提出了一种通过乐观估计与极大似然估计相结合的简单算法，能够保证在这些特殊情况下有多项式样本复杂度可行的方法。

Apr, 2022

基于后验采样的时态 POMDP 学习算法的遗憾分析

本文研究了具有未知转移和观测模型的 POMDPs 中的情节性学习问题，并证明了其贝叶斯后悔的规模与剧集数的平方根成正比。

Oct, 2023

部分可观测马尔可夫决策过程中纯探索策略的局限性：观测信息熵的足够性

在部分可观测性问题中，本文研究了将状态熵最大化的简单方法，并提供了对真实状态熵的逼近的上下界，以及如何利用观测函数的特性来计算观测熵的合理化的方法，从而提高性能和对 POMDP 环境下状态熵最大化的进展进行了理论性的描述。

Jun, 2024