Dec, 2016

无监督感知奖励用于模仿学习

TL;DR利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数,以便在真实世界环境中使用强化学习智能体执行任务。