具有后见可观性的 POMDP 学习具有高效样本利用率

Jan, 2023

具有后见可观性的 POMDP 学习具有高效样本利用率

Learning in POMDPs is Sample-Efficient with Hindsight Observability

Jonathan N. Lee, Alekh Agarwal, Christoph Dann, Tong Zhang

TL;DR本文针对传统 POMDP 学习在简单环境下的效率问题，提出了一种新的算法 HOMDP，并在考虑了过去的观测维度后有效地降低了算法的计算复杂度。

Abstract

pomdps capture a broad class of decision making problems, but hardness results suggest that learning is intractable even in simple settings due to the inherent partial →

pomdps learning homdp observability algorithms

发现论文，激发创造

多观测视角下的样本高效学习 POMDPs

该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究，并提出了一种增强的反馈模型，可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类：多观察揭示 POMDP 和可区分 POMDP，同时这两个子类也放宽了传统的揭示 POMDP 的要求。

Jul, 2023

带有部分后见状态信息的 POMDP 在 RL 中的理论难度与可解性

本文研究部分可观察马尔科夫决策过程（POMDP），发现除非我们拥有完整的后见状态信息，否则需要指数级的样本复杂度才能实现对 POMDP 的一个 ε- 最优策略解，但有部分 POMDP 分类情况下，其状态信息是足够的，本文提出了新的算法并证实这些算法是近似最优解。

Jun, 2023

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

POMDP 中最优奖励应观察什么？

针对部分可观察的马尔可夫决策问题 (POMDPs)，本文研究了一种新颖的最优可观测性问题 (OOP)：如何在固定预算下选择一种代理人的传感器，使其达到预期目标。研究表明该问题在一般情况下是不可判定的，而考虑位置策略时是可判定的。我们提出了两种算法解决可判定的 OOP 问题：一种基于 M 的潜在马尔可夫决策过程的最优策略，另一种基于 SMT 的参数合成。我们对 POMDP 文献中的典型示例的变体进行了实验，并获得了有希望的结果。

May, 2024

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

经证明高效的部分可观察风险敏感强化学习与事后观测

该论文通过引入后见观察机制，研究了部分可观测环境下风险敏感强化学习的悔恨分析，提出了在部分可观测马尔可夫决策过程框架下优化累积奖励的新方法。通过严格的分析证明了算法在模型降级为风险中性或完全可观测设置时，能够实现多项式悔恨。该研究对强化学习的理论研究具有特殊意义。

Feb, 2024

面向不确定性的机器人强鲁棒规划中的 POMDP-lite

本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite，使用该方法解决机器人任务时计算复杂度减小，我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型，效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。

Feb, 2016

部分可观察的强化学习何时不可怕？

该论文介绍了应用于部分可观测的情况下的强化学习模型，探讨了在一些特殊情况下该模型的使用，提出了一种通过乐观估计与极大似然估计相结合的简单算法，能够保证在这些特殊情况下有多项式样本复杂度可行的方法。

Apr, 2022

低秩 POMDP 中可证明高效且具可行性的表示学习

本文研究部分可观测马尔可夫决策过程的表示学习，其中智能体学习将高维原始观察映射到紧凑表示并用于更高效的探索和规划，并提出一种基于最大似然估计和不确定性乐观算法的表示学习算法，从而在计算复杂度上获得高效的采样复杂度。

Jun, 2023