ICMLAug, 2020

元强化学习的探索与利用解耦,无需牺牲

TL;DR本文提出一种基于策略梯度优化的元强化学习方法,该方法不但可以在学习新任务时快速利用之前相关任务的经验,还能自动识别任务相关信息来避免局部最优解。实验结果表明,该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。