Feb, 2018
结构化探索策略的元强化学习
Meta-Reinforcement Learning of Structured Exploration Strategies
Abhishek Gupta, Russell Mendonca, YuXuan Liu, Pieter Abbeel, Sergey Levine
TL;DR本研究探讨如何从先前的经验中学习探索策略,并介绍了一种新的基于梯度的快速自适应算法(MAESN)来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效,并在模拟任务中进行了评估。