Jun, 2018

POMDP 的深层变分强化学习

TL;DR本文提出了一种深度变分强化学习方法,该方法引入了归纳偏置,允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明,我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。