Mar, 2024

重新思考对抗性逆强化学习:从策略模仿和可转移奖励恢复的角度

TL;DR在这篇研究论文中,我们重新思考了对抗性逆向强化学习 (AIRL) 的两个不同方面:策略模仿和可转移奖励恢复。我们使用软actor-critic (SAC) 在策略优化过程中替代了AIRL中的内置算法,以增强样本效率,并且可识别AIRL相对于SAC具有马尔可夫决策过程 (MDP) 模型。这确实显着提高了策略模仿,但不幸的是对可转移奖励恢复带来了一些不利影响。为了解决这个问题,我们指出SAC算法本身无法在AIRL训练过程中全面解藕奖励函数,并且提出了一个混合框架PPO-AIRL + SAC,以实现满意的转移效果。此外,我们还从代数理论的角度分析了环境从中提取解藕奖励的能力。