AAAIMay, 2019
使用汤普森抽样的有限内存开环规划解决大规模 POMDP 问题
Memory Bounded Open-Loop Planning in Large POMDPs using Thompson Sampling
Thomy Phan, Lenz Belzner, Marie Kiermeier, Markus Friedrich, Kyrill Schmid...
TL;DR提出了一种基于限制记忆的开环规划方法 —— 部分可观察堆叠 Thompson 采样(POSTS),用以解决大型 POMDP 问题中内存资源有限的问题,相较于传统的基于树的规划方法,该方法具有性能和内存之间的平衡,四个基准问题的实验表明 POSTS 具有较好的竞争表现。