IJCAIJul, 2019

适应性汤普森抽样堆栈用于内存有限的开环规划

TL;DR提出一种名为 SYMBOL 的规划方法,该方法采用稳定但内存有限的方法处理部分可观测的开环规划,通过自适应使用 Thompson Sampling bandits 堆栈实现,适用于不需要先前领域知识和面向各种领域的问题,同时在四个大型 POMDP 基准问题中获得了良好的效果和稳健性能。