Jan, 2022

双元元模仿学习传输等级结构

TL;DR提出了一种名为 Dual Meta Imitation Learning(DMIL) 的层次元学习方法,使用模型无关元学习迭代元学习高级网络和子技能,并将来自每个子技能的状态操作对的似然作为高级网络适应的监督,理论上证明了 DMIL 的收敛性,并实现了在 Meta-world benchmark 中最先进的少量样本模仿学习性能和在长时间周期任务执行的 Kitchen 环境中有竞争力的结果。