ICLRJan, 2020

自主推断子任务依赖关系的元强化学习

TL;DR本文提出了一种新颖的少样本强化学习问题,其通过任务的子任务图描述一组子任务及其依赖关系,我们开发了一种元学习器,即消息传递子任务图推理器(MSGI),该学习器通过与环境交互推断任务的潜在参数,并采用上限置信界中得到启发的内在奖励以促进有效探索,实验结果表明该方法能够准确推断潜在任务参数, 并比现有的元强化学习和分层强化学习方法更有效地适应。