Oct, 2023

零样本迁移在模仿学习中的应用

TL;DR我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示,并通过学习一个单一的 Q 函数来模仿专家,我们结合了深度强化学习中的最新进展,从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难,以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性,这些环境的难度和迁移知识类型各不相同。