BriefGPT.xyz
Apr, 2024
DrS: 针对多阶段任务学习可重复使用的密集奖励
DrS: Learning Reusable Dense Rewards for Multi-Stage Tasks
HTML
PDF
Tongzhou Mu, Minghua Liu, Hao Su
TL;DR
我们提出了一种学习可重复使用稠密奖励的新方法,称为DrS,能够通过利用任务的阶段结构从稀疏奖励和示范中学习高质量的稠密奖励,并在未知任务中复用,从而减少了人工奖励设计的工作。实验证明我们学到的奖励在未知任务中可以复用,提高了强化学习算法的性能和样本效率,有些任务的性能甚至与人工奖励相媲美。
Abstract
The success of many
rl techniques
heavily relies on human-engineered
dense rewards
, which typically demand substantial domain expertise and extensive trial and error. In our work, we propose
→