Jul, 2023

学习利用先前行为解决任务

TL;DR通过在Demonstrations领域中应用深度强化学习(DRL),我们提出了一种基于内在奖励驱动的示例控制方法(IRDEC),该方法使代理能够探索和获取所需的先前行为,然后与示例中的任务特定行为相连接,无需额外演示先前行为即可解决稀疏奖励任务。我们的方法在三个导航任务和一个机器人操纵任务中表现优于其他基准方法。