ICLRMar, 2023

离线模仿学习的最优输运

TL;DR本文介绍一种基于 Optimal Transport Reward 标注的离线增强学习算法,通过算法赋予数据集中的未标注轨迹相似性度量作为奖励信号,实现数据驱动的决策制定策略学习,并在 D4RL 数据集上验证了其性能。