Jun, 2019

基于校准的模型驱动深度强化学习

TL;DR探索了模型强化学习需要哪些不确定性,论证了好的不确定性必须具有校准性,并描述了一种简单的方法来增强任何模型强化学习代理程序,并表明通过校准模型,可以一致地提高规划、样本复杂度和探索能力,该方法在 HalfCheetah MuJoCo 任务中实现了最先进的性能,使用 50%少的样本比当前领先的方法,并且研究表明,这种校准可以在计算和实施开销最小的情况下提高模型强化学习的性能。