AAAIDec, 2016

基于模型的强化学习的自我纠正模型

TL;DR本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果,提出了一种新的误差界,利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。