Oct, 2022

D-Shape: 基于目标条件的演示形状强化学习

TL;DR本文介绍一种新的结合模仿学习和强化学习的方法 D-Shape,它使用奖励塑造和目标条件强化学习来解决模仿学习所带来的与强化学习目标冲突的问题,从而实现在子优示范时学习,但同时还保持了相对于任务奖励的最优策略。我们在稀疏奖励的网格世界领域进行了实验,并证明了 D-Shape 在提高样本效率和处理子优示范的同时始终能够收敛到最优策略。