ICMLJun, 2018

基于观测的内部模型用于奖励塑造

TL;DR本研究提出一种新的强化学习方法,即基于内部模型的奖励估计方法,通过预测给定专家状态分布的预测模型来估计奖励,进而直接从专家操作的视频中成功训练出良好的策略。