Jan, 2024

外部奖励的软 Q 模仿学习和判别器

TL;DR利用鉴别器的软 Q 模仿学习算法(DSQIL)结合通过对抗逆强化学习的奖励函数,对小规模样本数据进行高效、鲁棒的模仿学习与训练。