Aug, 2018

从视觉观察中学习可操作的表征

TL;DR本文研究了使用自我监督学习来学习连续控制任务的对抗学习方法。通过将多个帧联合嵌入到嵌入空间中,我们扩展了时间对比网络(TCN),从而能够更准确地编码位置和速度属性。我们证明了这种方法在强化学习任务中有效,可以通过仅使用学习到的嵌入作为输入,使用像Proximal Policy Optimization(PPO)这样的算法来学习连续控制策略。