May, 2023

离线目标条件强化学习的未见目标泛化必要因素是什么?

TL;DR本文研究了离线目标导向增强学习算法的越界泛化问题,提出了一种基于加权模仿学习的离线学习算法(GOAT),在 9 项独立同分布任务和 17 项越界任务测试中显著优于现有的算法。