ICMLNov, 2022

基于图形激活奖励学习的通用空间目标表示发现

TL;DR本文讨论了一种针对物体重新排列任务的单次模仿学习方法,通过基于图等价映射的奖励学习策略发现和学习与目标规范一致的空间目标表达,并与强基线方法相比,显著提高了学习目标表达在不同环境下的泛化能力。