Mar, 2021

使用有序记忆策略网络进行学习任务分解

TL;DR本文提出了一种名为OMPN的有序记忆策略网络,用于通过学习人类演示中的层次结构发现子任务层次结构,进而通过任务分解恢复无结构演示中的子任务边界。实验证明,在无监督和弱监督设置下,OMPN模型可以比强基线模型更好地实现任务分解。而且,OMPN模型也可以直接应用于部分可观察的环境,仍然可以实现更高的任务分解性能。