递归约束偏观测马尔可夫决策过程

Oct, 2023

递归约束偏观测马尔可夫决策过程

Recursively-Constrained Partially Observable Markov Decision Processes

Qi Heng Ho, Tyler Becker, Ben Kraske, Zakariya Laouar, Martin Feather...

TL;DR通过引入新的限制性、历史依赖成本约束的递归约束部分可观察马尔可夫决策问题 (RC-POMDP)，本文解决了常规约束部分可观察马尔可夫决策问题 (C-POMDP) 中存在的问题，并提出了一个基于点的动态规划算法来寻找 RC-POMDP 的最优策略。实验证明，相比于 C-POMDP 的策略，RC-POMDP 的策略具有更好的行为，并展示了算法在一组基准问题上的有效性。

Abstract

In many problems, it is desirable to optimize an objective function while imposing constraints on some other aspect of the problem. A Constrained Partially Observable Markov Decision Process (C-POMDP) allows modelling of such problems while subject to transition uncertainty and partial observability. Typically, the constraints in C-POMDPs enforce a threshold

constrained partially observable markov decision process rc-pomdp optimal policies bellman's principle of optimality dynamic programming algorithm

发现论文，激发创造

线性规划方法求解约束部分可观测的马尔可夫决策过程

使用 LP 模型结合基于网格的近似方法生成近似策略，研究了解决限制观测 Markov 决策过程的效果。结果表明，LP 模型可有效地生成有限和无限时间段问题的近似策略，同时提供将各种附加约束集成到模型中的灵活性。

Jun, 2022

约束层次蒙特卡罗信念状态规划

优化在约束部分可观察马尔可夫决策过程中的规划，使用层次分解和在线基于搜索的约束选项信念树搜索算法来扩展大型机器人领域中的规划问题。

Oct, 2023

POPCORN：部分观察预测约束强化学习

本文提出了一种新的优化目标，以批处理离线策略为特点，即使在某些观测对于规划无关紧要时，该方法也能产生高性能策略和高质量的生成模型，并将其应用于合成样例和一个具有挑战性的医疗决策问题。

Jan, 2020

鲁棒受限制马尔科夫决策过程：在模型不确定性下进行软受限制鲁棒策略优化

本文介绍了一个基于 Constrained Markov Decision Process（CMDP）和 Robust Markov Decision Process（RMDP）的框架，即 Robust Constrained-MDPs（RCMDP），用于设计强大而稳健的强化学习算法，并提供相应的约束满足保证。同时，还将这个框架用于从模拟到真实世界的政策转移中，以实现对模型不确定性的强鲁棒性和安全保障。最后，我们在库存管理问题上验证了这个框架的有效性。

Oct, 2020

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

在线随机情况规划的展开策略

部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题，并提出了两种领域独立的启发式算法，一种基于经典规划中著名的 h_add 启发式算法，另一种在信念空间中计算并考虑信息价值。

Oct, 2023

带安全可达目标的 POMDP 有界策略合成

本文研究了带安全可达性目标的部分可观测马尔可夫决策过程（POMDPs），提出了一种基于目标约束信念空间和符号约束的方法来合成能实现安全可达性目标的策略，并通过实验结果表明，该方法能够在大量信念空间中高效地搜索有效策略。

Jan, 2018

面向不确定性的机器人强鲁棒规划中的 POMDP-lite

本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite，使用该方法解决机器人任务时计算复杂度减小，我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型，效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。

Feb, 2016

约束风险厌恶马尔可夫决策过程

该研究旨在设计面向具有动态一致风险目标和约束的马尔可夫决策过程的策略。作者提出了一个基于优化的方法来综合最小化受约束的风险 - 厌恶问题的可行马尔可夫策略，并通过数值实验验证了该方法的有效性。

Dec, 2020

机器人中的部分可观察马尔可夫决策过程：综述

这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程（POMDP）的数学模型和算法，分析它们的特点，并提供适用的决策任务的关键任务特性。

Sep, 2022