Jun, 2022
EAGER: 语言指导强化学习中自动奖励塑造的问答
EAGER: Asking and Answering Questions for Automatic Reward Shaping in Language-guided RL
Thomas Carta, Pierre-Yves Oudeyer, Olivier Sigaud, Sylvain Lamprier
TL;DR本文中,我们使用问题生成和问题回答系统来提取辅助目标,从而实现针对自身解决问题的能力,从而提高了自动奖励塑造方法的采样效率。