关键词bellman's principle of optimality
搜索结果 - 2
- $ε$- 优化地求解零和 POSG
该研究论文介绍了一种解决零和部分可观察随机博弈问题的方法,通过将原始游戏嵌入一个称为占用马尔可夫游戏的新游戏中,可以应用贝尔曼最优原理来解决该问题。此方法通过利用价值函数的均匀连续性特性来提高解决方法的可扩展性,并且提出了一种比现有更新规则 - 递归约束偏观测马尔可夫决策过程
通过引入新的限制性、历史依赖成本约束的递归约束部分可观察马尔可夫决策问题 (RC-POMDP),本文解决了常规约束部分可观察马尔可夫决策问题 (C-POMDP) 中存在的问题,并提出了一个基于点的动态规划算法来寻找 RC-POMDP 的最优