NIPSMay, 2018

基于事件的变分逆控制方法:一种用于数据驱动奖励定义的通用框架

TL;DR本文提出了一种新方法 —— 基于事件的变分反控制方法 (VICE),用于解决控制和强化学习中经常遇到的奖励函数设计困难问题,特别是在只有一些目标状态示例的情况下。我们的方法基于控制和强化学习的另一种视角,即代理目标是最大化未来某个时间点发生一个或多个事件的概率,而不是最大化累积奖励。我们通过高维观测(如图像),演示了我们的方法在连续控制任务上的有效性,其中奖励很难甚至无法指定。