BriefGPT.xyz
Ask
alpha
关键词
d-shape
搜索结果 - 1
D-Shape: 基于目标条件的演示形状强化学习
本文介绍一种新的结合模仿学习和强化学习的方法 D-Shape,它使用奖励塑造和目标条件强化学习来解决模仿学习所带来的与强化学习目标冲突的问题,从而实现在子优示范时学习,但同时还保持了相对于任务奖励的最优策略。我们在稀疏奖励的网格世界领域进行
→
PDF
2 years ago
Prev
Next