Feb, 2023

通过展示理解专业技能:一种离线逆向强化学习的最大似然框架

TL;DR研究了离线逆向强化学习的问题,提出了一种基于双层优化的估计任务公式与新的算法框架来解决这个问题,并在MuJoCo中的连续控制任务以及D4RL基准测试中的不同数据集上,展示了算法胜过现有最先进的离线IRL和模仿学习基准测试大量的结果。