Jul, 2018

分层强化学习用于具有子任务依赖性的零样本普适性

TL;DR提出了一种新的强化学习问题,该问题需要代理在一个由子任务图描述的先前未见的环境中进行泛化,我们提出了一种神经子任务图求解器,通过使用递归神经网络嵌入来编码子任务图,并用基于梯度的策略,图奖励传播来预训练它,进一步通过演员 - 评论家方法微调它,实验结果表明,我们的代理可以进行复杂的推理,找到执行子任务图的近似最优方式,并且在未见的子任务图上具备很好的泛化性能。