递归双升 POMDP 规划中处理近视限制

Mar, 2024

递归双升 POMDP 规划中处理近视限制

Addressing Myopic Constrained POMDP Planning with Recursive Dual Ascent

Paula Stocco, Suhas Chundi, Arec Jamgochian, Mykel J. Kochenderfer

TL;DR在这项工作中，我们介绍了一种使用拉格朗日引导的蒙特卡洛树搜索和全局双上升来解决大规模约束部分可观察的马尔可夫决策过程（CPOMDPs）在线问题的方法。我们展示了全局双参数能导致在探索阶段产生短视的动作选择，从而最终导致次优的决策。为了解决这个问题，我们引入了依赖于历史的双变量，用于指导局部动作选择，并通过递归双上升进行优化。我们通过在一个示例和两个大型CPOMDPs上的实证比较来展示我们方法的性能，证明了改进的探索和更安全的结果。

Abstract

lagrangian-guided monte carlo tree search with global dual ascent has been applied to solve large constrained partially observable markov decision processes (CPOMDPs) online. In this work, we demonstrate that the

发现论文，激发创造

大规模POMDP的即时点估计近似

介绍了一种名为PBVI的基于点值备份策略的实时部分可观测的马可夫决策过程，该策略通过选择信息信念点提高了算法效率，同时在标准的POMDP域和现实机器人任务中进行了实验评估。

Sep, 2011

POMDP的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的POMDP方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型POMDP领域。

Jan, 2014

有限马尔可夫决策问题中的勘探-利用

本文研究了Constrained Markov Decision Processes下的exploration-exploitation trade-off问题，提出了两种方法：基于线性规划和基于对偶变量逐步更新的方法。研究结果表明，这两种方法都可以实现sublinear regret，但是线性规划方法具有更强的保障性。

Mar, 2020

多任务选项学习与发现在随机路径规划中的应用

应用强化学习模式下，通过数据驱动方法生成抽象状态，计算有效的选项和高级实现路径，从而获得可执行和可解决性的强大保证。

Sep, 2022

混合信念POMDP中的蒙特卡罗规划

本文介绍了 Hybrid Belief Monte Carlo Planning (HB-MCP) 算法，利用 Monte Carlo Tree Search (MCTS) 算法来解决部分可观测马尔科夫决策过程 (POMDP) 问题，同时维护混合信念。研究者采用上置信区间 (UCB) 探索奖励来结合概率分布树和信任度分布树，以引导假设树的增长，同时在解决未解决数据关联问题的高度别名模拟环境中评估了该方法的有效性。

Nov, 2022

递归约束偏观测马尔可夫决策过程

通过引入新的限制性、历史依赖成本约束的递归约束部分可观察马尔可夫决策问题 (RC-POMDP)，本文解决了常规约束部分可观察马尔可夫决策问题 (C-POMDP) 中存在的问题，并提出了一个基于点的动态规划算法来寻找 RC-POMDP 的最优策略。实验证明，相比于 C-POMDP 的策略，RC-POMDP 的策略具有更好的行为，并展示了算法在一组基准问题上的有效性。

Oct, 2023

解决方案质量无任何妥协: 通过自适应多层简化加速基于信念的连续POMDPs

基于置信度树和MCTS的自适应多层简化理论可加速连续POMDP在线规划，不损失解决方案质量。

Oct, 2023

约束层次蒙特卡罗信念状态规划

优化在约束部分可观察马尔可夫决策过程中的规划，使用层次分解和在线基于搜索的约束选项信念树搜索算法来扩展大型机器人领域中的规划问题。

Oct, 2023

无折扣POMDP中带有可达性目标的声音启发搜索值迭代

该研究论文探讨了部分可观测马尔可夫决策过程（POMDPs）中的最大可达性概率问题（MRPP），研究了一种基于点估计方法和基于试探性启发式搜索的新算法，解决了处理无限时域问题中循环的问题，并在实验评估中表现出优越性。

Jun, 2024

蒙特卡罗树搜索中经过状态占用正则化的可证明高效长期探索

基于状态占用度测量规范化的策略优化导出了一种树搜索算法Volume-MCTS，通过测试发现其在机器人导航问题中表现出优于AlphaZero和更好的长视野探索性能。

Jul, 2024