NIPSSep, 2018

递归世界模型促进策略演化

TL;DR使用生成式的递归神经网络以压缩时空特征的方式进行快速的非监督式学习,模拟了一些常见的强化学习环境。提取的环境模型特征被输入到简洁的进化训练策略中,取得了在各种环境中的最先进成果。最后,我们在由内部环境模型产生的环境中完全训练我们的智能体,并将这个策略转移到了实际环境中。