递归世界模型促进策略演化

NIPSSep, 2018

Recurrent World Models Facilitate Policy Evolution

David Ha, Jürgen Schmidhuber

TL;DR使用生成式的递归神经网络以压缩时空特征的方式进行快速的非监督式学习，模拟了一些常见的强化学习环境。提取的环境模型特征被输入到简洁的进化训练策略中，取得了在各种环境中的最先进成果。最后，我们在由内部环境模型产生的环境中完全训练我们的智能体，并将这个策略转移到了实际环境中。

Abstract

A generative recurrent neural network is quickly trained in an unsupervised manner to model popular reinforcement learning environments th

generative recurrent neural network unsupervised learning reinforcement learning world model

发现论文，激发创造

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

深度進化神經反饋與離散世界模型

通过遗传算法，同一物体的不同部分可以被联合训练，得到与分开训练相媲美的性能，该研究进一步证明了深度神经进化在复杂异构体系结构下的有效性。

Apr, 2019

循环环境仿真器

提出使用循环神经网络的环境模拟器，以提高效率，改善不同环境的探索，并解决计算效率问题。

Apr, 2017

通过策略引导的轨迹扩散实现的世界模型

我们提出了一种新的世界建模方法 PolyGRAD，它利用扩散模型和策略的动作分布梯度，通过一次传递生成整个在政策上的合成轨迹，该方法在竞争力预测错误率方面与最先进的自回归基线相当，并且使得能在 “虚拟中” 进行政策优化的性能表现良好。

Dec, 2023

使用生成环境模型塑造强化学习中的信念状态

本文提出了一种在复杂环境中高效训练表现出色的生成模型的方法，通过预测算法和一个表现出色的生成模型，可以在视觉丰富和动态的 3D 环境中形成稳定的信念状态，并且在强型自由基线代理程序中显著提高数据效率。

Jun, 2019

潜在世界模型对于连续强化学习的惊人有效性

本文研究了基于模型的强化学习方法，特别是对于持续强化学习的世界模型的应用。结论表明，使用世界模型是一种简单且有效的持续强化学习基准。

Nov, 2022

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

基于模型无关生成回放的终身强化学习：以星际争霸 2 为例

本研究研究了三种 LRL 模型的生成式重演（GR）机制，提高了迁移学习等量化指标以及解决了忘却问题。通过实验结果表明，该机制在深度 RL 代理的潜藏向量空间内防止特征到行为映射发生漂移，缩小了训练样本数量，具有较高的实验价值。

Aug, 2022

具有空间记忆的生成时序模型用于部分可观测环境

本文提出了一种新型的基于模型的强化学习方法，利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的，该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。

Apr, 2018

使用生成回放进行强化学习的连续状态表示学习

本研究针对建立连续学习中的状态表示模型问题展开讨论，为保留过去知识的同时高效压缩感知状态信息，我们提出了使用变分自编码器（Variational Auto-Encoders）作为状态表示，并基于生成样本的生成回放（Generative Replay）技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递，还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习，无需使用过去数据。

Oct, 2018