IJCAIJan, 2022
具有自我改进模拟器的 POMDP 在线规划
Online Planning in POMDPs with Self-Improving Simulators
Jinke He, Miguel Suau, Hendrik Baier, Michael Kaisers, Frans A. Oliehoek
TL;DR本文介绍了一种基于在线学习的、可提高计划的效率的方法,该方法通过自适应决策确定使用哪个模拟器,以实现计划过程中的精度与速度之间的平衡。实验结果表明,该方法在两个大领域中与 POMCP 集成后可以使计划效率得到提高。