Feb, 2024

基于度量学习的目标条件离线强化学习

TL;DR我们通过提出一种新的优化目标,在稀疏奖励、对称和确定性操作的目标条件离线强化学习问题中,近似计算最优值函数。实验结果表明,我们的方法在从次优离线数据集中学习时始终优于其他离线强化学习方法,并且在处理高维观测和多目标任务方面也表现出很好的效果。