AAAIFeb, 2023

对抗性模仿学习中的无标签不完美演示

TL;DR本文提出了一种基于自对抗的无标签专家演示的算法,利用全面学习方法,动态地抽样专家演示,并与不断优化的策略进行比对,可以优化生成的轨迹,实现了动态的自我适应学习。