ICLRSep, 2018

使用有向信息从未经分段的演示中学习分层策略的 Directed-Info GAIL

TL;DR本研究提出一种新的算法,它可以使用生成对抗性模仿学习框架,通过图模型来学习未分割演示中的子任务策略,并通过优化图模型中子任务潜在变量和其生成的轨迹之间的有向信息流来提高性能,同时将该方法与现有的层次策略学习框架 Options 连接起来。