AAAIDec, 2020
程序化生成环境下高效演示逆强化学习
Demonstration-efficient Inverse Reinforcement Learning in Procedurally Generated Environments
Alessandro Sestini, Alexander Kuhnle, Andrew D. Bagdanov
TL;DR通过有限集的初始种子和一些训练稳定的修改,我们提出了一种基于对抗性反向强化学习的技术,名为 DE-AIRL,该技术能够显著减少对专家演示的需求,并仍能够将回报函数外推到完全程序化域,我们在 MiniGrid 和 DeepCrawl 的两个程序化环境中展示了我们的技术的有效性。