Sep, 2017

MBMF:基于模型的先验知识用于无模型强化学习

TL;DR本文提出了一种新的方法,旨在将模型自由和模型相关两种范式结合起来,通过学习概率动力学模型和利用它作为模型自由优化的先验概率来实现数据有效和成本节约,并证明这种方法优于单纯的模型相关和模型自由方法,以及从模型相关模式切换到模型自由模式的方法。