ICLRJun, 2018

事前学习与行动

TL;DR本研究使用随机视频预测学习了捕捉场景动态的潜在变量,同时尽量不受场景内容的影响,从而学习代理的行动空间;该方法在半监督学习下表现相当于现有的完全监督方法,在任务如行动条件视频预测和计划学习行动空间时,需要几个数量级更少的行动标签。