Jun, 2022

EAGER: 语言指导强化学习中自动奖励塑造的问答

TL;DR本文中,我们使用问题生成和问题回答系统来提取辅助目标,从而实现针对自身解决问题的能力,从而提高了自动奖励塑造方法的采样效率。