AAAIMay, 2019

使用汤普森抽样的有限内存开环规划解决大规模 POMDP 问题

TL;DR提出了一种基于限制记忆的开环规划方法 —— 部分可观察堆叠 Thompson 采样(POSTS),用以解决大型 POMDP 问题中内存资源有限的问题,相较于传统的基于树的规划方法,该方法具有性能和内存之间的平衡,四个基准问题的实验表明 POSTS 具有较好的竞争表现。