Mar, 2018

世界模型

TL;DR本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。