Jan, 2023

离线学习目标条件策略:自监督奖励塑形

TL;DR在机器人领域,通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态,并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法,并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。