Jul, 2022

朝着在 POMDP 中使用完全可观察策略

TL;DR本文提出了基于多模式信念的偏差可观察马尔可夫决策过程 (POMDP) 的解决方法,该方法基于全可观察版本的策略,并定义了一个基于价值函数的混合值函数,可以使用相应的贪心策略解决 POMDP。作者发展了必要的数学框架,并介绍了在 Reconnaissance Blind TicTacToe 任务上建立的基准测试。在此基准测试中,我们展示了多模式策略胜过忽略多模式存在的策略。