ICMLJun, 2017

多任务深度强化学习中的零样本任务泛化

TL;DR在强化学习中,我们介绍了一种新的强化学习问题,其中代理需要在学习解决子任务的有用技能后学习执行指令序列。我们考虑到先前未见的指令和更长的指令序列的泛化,为此,我们提出了一种基于类比的新目标和一个层次结构架构,并提出了一个新的神经网络架构来解决延迟奖励问题,实验结果表明这些提议对于泛化到较长指令序列以及未见指令是至关重要的。