Oct, 2020

离散世界模型掌握Atari

TL;DRDreamerV2是一种基于world models且在离线的训练集上通过reinforcement learning进行策略(即行为)学习的智能体,用于通过对compact latent space进行预测,实现从Atari游戏或连续动作任务的图像输入中进行行为学习的高效模型,实现了在55个任务中的human-level的性能,获得了与IQN和Rainbow类似的结果。