ICLRJun, 2019

具备变分内在继承特征的快速任务推理

TL;DR本文介绍了一种将马尔可夫决策过程和继承特征相结合的算法 (VISR),该算法通过学习可控特征对继承特征进行增强,从而实现对 Atari 游戏中奖励的快速学习和泛化能力,并在 14 个游戏中实现了人类水平的表现。