May, 2022

基于归一化流的观测式模仿学习(IL-flOw)

TL;DR本论文介绍了一种基于状态观测的逆强化学习算法IL-flOw,其将奖励建模与策略学习解耦,并利用深度密度估计方法生成奖励信号,避免了对抗训练方法的不稳定性问题。通过使用状态转移概率密度作为正向强化学习的奖励信号,实验结果展示了在大规模机器人控制任务上的优秀表现。