Oct, 2023

递归约束偏观测马尔可夫决策过程

TL;DR通过引入新的限制性、历史依赖成本约束的递归约束部分可观察马尔可夫决策问题 (RC-POMDP),本文解决了常规约束部分可观察马尔可夫决策问题 (C-POMDP) 中存在的问题,并提出了一个基于点的动态规划算法来寻找 RC-POMDP 的最优策略。实验证明,相比于 C-POMDP 的策略,RC-POMDP 的策略具有更好的行为,并展示了算法在一组基准问题上的有效性。