IJCAIMar, 2019

强化学习中使用自然语言进行奖励塑形

TL;DR使用自然语言指令进行奖励塑形,在复杂的 Atari 游戏中,比标准强化学习算法成功完成任务的次数平均提高了 60%,并且可以无缝集成到任何标准强化学习算法中。