IJCAIJan, 2022

具有自我改进模拟器的 POMDP 在线规划

TL;DR本文介绍了一种基于在线学习的、可提高计划的效率的方法,该方法通过自适应决策确定使用哪个模拟器,以实现计划过程中的精度与速度之间的平衡。实验结果表明,该方法在两个大领域中与 POMCP 集成后可以使计划效率得到提高。