ICMLJul, 2018

探索层次感知逆强化学习

TL;DR介绍了一种新的生成模型,可以准确预测符合人类规划特点的目标,并使用 BIHRL 算法推导出了规划者的值,其中包含了分级策略。该算法在 `Wikispeedia' 游戏玩家的目标预测中极大提高了准确性。