世界模型

Mar, 2018

World Models

David Ha, Jürgen Schmidhuber

TL;DR本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Abstract

We explore building generative neural network models of popular reinforcement learning environments. Our world model can be trained quickly in an unsupervised manner to learn a compressed spatial and temporal rep

generative neural network reinforcement learning world model agent unsupervised learning

发现论文，激发创造

递归世界模型促进策略演化

使用生成式的递归神经网络以压缩时空特征的方式进行快速的非监督式学习，模拟了一些常见的强化学习环境。提取的环境模型特征被输入到简洁的进化训练策略中，取得了在各种环境中的最先进成果。最后，我们在由内部环境模型产生的环境中完全训练我们的智能体，并将这个策略转移到了实际环境中。

Sep, 2018

潜在世界模型对于连续强化学习的惊人有效性

本文研究了基于模型的强化学习方法，特别是对于持续强化学习的世界模型的应用。结论表明，使用世界模型是一种简单且有效的持续强化学习基准。

Nov, 2022

神经世界模型与计算机视觉

该研究提出了一种基于计算机视觉概念，使用深度神经网络从摄像头观测和专业演示数据中训练世界模型和政策的通用框架，该模型可以预测鸟瞰图空间中动态汽车的未来轨迹，并在城市驾驶环境中联合预测静态场景、动态场景和特定行为。

Jun, 2023

将世界模型视为图：学习用于规划的潜在地标

该论文提出 L3P 算法，使用稀疏的多步转换学习基于图结构的世界模型并生成 Q - 函数，其在高维连续控制任务上具有优越的性能，是深度强化学习中可扩展规划的重要进展。

Nov, 2020

Dropout 的梦幻之地：从学习模拟器到现实的泛化

本研究探索从梦境环境到真实环境的通用方法 Drean2Real。借鉴于领域随机化，结合使用丢失（Dropout）技术，我们使用具有可配置参数的世界模型训练来创建多样的梦境环境，提高控制器从神经网络梦境环境到现实环境转移的能力，并证实了丢失梦幻世界技术是弥合梦境环境和现实环境的差距的有效技术。

Sep, 2021

学习基于知识图谱的文本环境世界模型

该论文聚焦于构建基于文本的游戏环境的世界模型，利用知识图谱和自然语言行动生成模型，提升增强学习智能体在该环境下的效率。通过零样本消融实验，表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。

Jun, 2021

深度進化神經反饋與離散世界模型

通过遗传算法，同一物体的不同部分可以被联合训练，得到与分开训练相媲美的性能，该研究进一步证明了深度神经进化在复杂异构体系结构下的有效性。

Apr, 2019

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

分层世界模型作为视觉全身人形控制器

基于强化学习的高度数据驱动方法用于视觉全身人形控制，通过层级世界模型生成指令以执行，实现了在模拟 56 自由度人形机器人的 8 个任务上高性能控制策略的合成。

May, 2024

具有结构化世界模型的样本高效机器人学习

研究利用特征空间和世界模型提高机器人在可变形物体折叠任务中的学习效率和性能，结果发现使用特征点可以将最佳模型的性能提升 50％，学习效率也可以得到提升。

Oct, 2022