Oct, 2019

中继策略学习:通过模仿和强化学习解决长时间间隔任务

TL;DR本文提出了一种中继策略学习的方法,可用于模仿和强化学习,旨在解决多阶段、长视程机器人任务,包括模仿学习阶段和强化学习阶段,通过学习目标条件分层策略和使用新颖的数据重新标记算法简化了政策学习问题,并证明了该方法在挑战性的厨房模拟环境中解决多阶段、长视程操作任务的有效性。