Oct, 2019

一种基于叙事的奖励塑造方法,使用基于语境的自然语言指令

TL;DR通过自然语言引导,我们对深度强化学习技术进行了改进,实现了对StarCraft II等任务的有效训练,并与传统的奖励塑形方法相比,取得了更好的性能表现。