May, 2022

具有非稳态相互依赖关系的自主开放式任务学习

TL;DR该论文提出了一种基于马尔可夫决策过程的分层架构,使用内在动机最大化机器人学习多个具有关联性目标的能力,并提出了一种新的系统H-GRAIL来记录自主获取的任务序列,以能够在非稳态情况下修改它们。