Jan, 2023

POMDP有限状态控制器的安全策略改进

TL;DR本文研究了用于局部可观察马尔可夫决策问题 (POMDP) 的安全策略改进 (SPI) 方法,该方法假定可以访问历史数据和行为策略。作者提出基于有限状态控制器和有限记忆计算的离线策略改进方法,并在多项基准实验中证明了其可行性和有效性。