AAAIDec, 2020

程序化生成环境下高效演示逆强化学习

TL;DR通过有限集的初始种子和一些训练稳定的修改,我们提出了一种基于对抗性反向强化学习的技术,名为 DE-AIRL,该技术能够显著减少对专家演示的需求,并仍能够将回报函数外推到完全程序化域,我们在 MiniGrid 和 DeepCrawl 的两个程序化环境中展示了我们的技术的有效性。