Oct, 2023
递归约束偏观测马尔可夫决策过程
Recursively-Constrained Partially Observable Markov Decision Processes
Qi Heng Ho, Tyler Becker, Ben Kraske, Zakariya Laouar, Martin Feather...
TL;DR通过引入新的限制性、历史依赖成本约束的递归约束部分可观察马尔可夫决策问题 (RC-POMDP),本文解决了常规约束部分可观察马尔可夫决策问题 (C-POMDP) 中存在的问题,并提出了一个基于点的动态规划算法来寻找 RC-POMDP 的最优策略。实验证明,相比于 C-POMDP 的策略,RC-POMDP 的策略具有更好的行为,并展示了算法在一组基准问题上的有效性。