Jan, 2022

利用视角一致动力学加速数据效率强化学习中的表征学习

TL;DR通过提出多视角马尔可夫决策过程和视图一致的动力学模型,在深度强化学习中学习图像观测的信息表示,以达到数据高效的目的。该模型在 DeepMind Control Suite 和 Atari-100k 数据集上的实验验证表明,其是视觉控制任务最先进的数据高效算法。