BriefGPT.xyz
Jan, 2023
POMDP有限状态控制器的安全策略改进
Safe Policy Improvement for POMDPs via Finite-State Controllers
HTML
PDF
Thiago D. Simão, Marnix Suilen, Nils Jansen
TL;DR
本文研究了用于局部可观察马尔可夫决策问题 (POMDP) 的安全策略改进 (SPI) 方法,该方法假定可以访问历史数据和行为策略。作者提出基于有限状态控制器和有限记忆计算的离线策略改进方法,并在多项基准实验中证明了其可行性和有效性。
Abstract
We study
safe policy improvement
(SPI) for
partially observable markov decision processes
(POMDPs). SPI is an
offline reinforcement learning
→