Jul, 2017

多样行为的鲁棒性模仿

TL;DR本文提出了一种基于变分自编码器的策略嵌入方法,相比传统的监督学习方法和生成对抗网络的模仿学习,该方法可以从更少的示范数据中学习到更为鲁棒的控制器,并避免了模式坍塌现象。