Feb, 2020

强化学习的广义后见之明

TL;DR提出 Generalized Hindsight 方法用于将多任务学习中无用的数据转化为有用的信息,以提高强化学习中数据的复用效率。