NIPSMay, 2016

VIME:变分信息最大化探索

TL;DR本篇论文提出了一种基于变分信息最大化探索的方法 VIME,使用贝叶斯神经网络中的变分推断实现,能有效处理连续状态和动作空间,在多种连续控制任务和算法中表现显著优于启发式探索方法。