NIPSMay, 2018

使用概率动态模型进行少量试验的深度强化学习

TL;DR本研究旨在利用基于不确定性的深度网络动态模型来提高回报函数学习算法的样本效率,并通过样本传播方法实现不确定性处理,从而解决参数化函数逼近器,如深度网络的性能下降问题,我们提出了一种名为 PETS 的新算法。与深度强化学习的先进算法进行比较,结果表明我们的方法可以在 Asymptotic Performance 上与模型自由算法匹配,并且在许多具有挑战性的基准任务中需要明显较少的样本数量(例如,在半猎豹任务中所需样本数量比 Soft Actor Critic 和 Proximal Policy Optimization 分别减少 8 倍和 125 倍)。