Feb, 2024

反向软 Q 学习用于离线模仿与次优示范

TL;DR离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法,通过添加正则化项来对齐学习得到的回报函数,从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。