ICLROct, 2019

VariBAD:基于元学习的 Bayes - 自适应深度强化学习的非常好方法

TL;DR本研究提出了一种元学习方法 —— 变分 Bayes 适应深度强化学习 (variBAD),用于在未知环境中进行结构化在线探索,通过直接考虑任务不确定性进行动作选择,在 MuJoCo 领域的实验证明,相较于现有方法,variBAD 能够获得更高的在线收益。