ICLRSep, 2019

元强化学习

TL;DRMeta-Q-Learning (MQL) 是一种新的离线策略算法,它建立在三个简单的思想之上:使用过去轨迹的表示作为上下文变量可以使 Q-learning 与最先进的元 RL 算法相竞争;最大化训练任务的平均奖励的多任务目标是元训练 RL 策略的有效方法;从元训练回放缓冲区中获取的过去数据可以通过非策略更新来适应新任务,MQL 借鉴了势估计的思想,从而增加了可用于适应的数据量。实验表明,与元 RL 的最新技术相比,MQL 在标准的连续控制基准测试中表现得更好。