Feb, 2018

结构化探索策略的元强化学习

TL;DR本研究探讨如何从先前的经验中学习探索策略,并介绍了一种新的基于梯度的快速自适应算法(MAESN)来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效,并在模拟任务中进行了评估。