May, 2018

POMDP 数据高效模型学习的变分推断

TL;DR本研究提出 DELIP 作为 POMDP 模型学习的方法,利用摊销结构化变分推理,模型结合最先进的规划器能够在不确定性环境下获得有效的控制策略。