通过世界模型掌握多样领域

Jan, 2023

Mastering Diverse Domains through World Models

Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap

TL;DRDreamerV3 是一种基于世界模型的通用、可扩展的算法，具有较好的数据效率和最终性能，在各种单一或混合任务中表现优异，能够解决困扰强化学习发展的一系列挑战。

Abstract

general intelligence requires solving tasks across many domains. Current reinforcement learning algorithms carry this potential but are held back by the resources and knowledge required to tune them for new tasks

reinforcement learning world models data efficiency decision-making general intelligence

发现论文，激发创造

离散世界模型掌握 Atari

DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体，用于通过对 compact latent space 进行预测，实现从 Atari 游戏或连续动作任务的图像输入中进行行为学习的高效模型，实现了在 55 个任务中的 human-level 的性能，获得了与 IQN 和 Rainbow 类似的结果。

Oct, 2020

DayDreamer: 物理机器人学习的世界模型

本文介绍了 Dreamer 算法在物理机器人上应用的实验，证明了该算法能够使得机器人在真实世界中进行快速学习和适应，同时建立了实际环境下世界模型应用于机器人学习的强基线。

Jun, 2022

WorldDreamer：面向通用视频生成的世界模型预测屏蔽标记

WorldDreamer 是一个创新的全球模型，通过将视觉输入映射为离散标记并预测掩码标记，将世界建模作为无监督的视觉序列建模挑战，实现对一般世界物理和运动的全面理解，并在视频生成方面具有卓越的性能。

Jan, 2024

Dropout 的梦幻之地：从学习模拟器到现实的泛化

本研究探索从梦境环境到真实环境的通用方法 Drean2Real。借鉴于领域随机化，结合使用丢失（Dropout）技术，我们使用具有可配置参数的世界模型训练来创建多样的梦境环境，提高控制器从神经网络梦境环境到现实环境转移的能力，并证实了丢失梦幻世界技术是弥合梦境环境和现实环境的差距的有效技术。

Sep, 2021

DreamingV2: 基于离散世界模型的强化学习方法，无需重构

提出了一种新的强化学习方法 DreamingV2，它是 DreamerV2 和 Dreaming 的协作扩展，与 DreamingV2 的离散表示和 Dreaming 的无重构目标相比，DreamingV2 在 3D 机器人臂任务上取得了最佳成绩，适用于描述不连续环境的离散表示以及管理复杂视觉观察的无重构方式，是一种可靠的机器人学习解决方案。

Mar, 2022

控制梦境：通过潜在想象学习行为

使用潜意识想象力，在学习世界模型的基础上，Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务，具有数据效率高，计算时间短和最终性能强等优势。

Dec, 2019

CoDreamer：基于通信的分散式世界模型

在强化学习中，样本效率是一个关键挑战。本研究引入了 CoDreamer，这是 Dreamer 算法在多智能体环境中的扩展，利用图神经网络构建了一个双层通信系统来解决部分可观测性和智能体合作等问题。我们证明了 CoDreamer 比使用 Dreamer 的简单方法具有更强的表达能力，并在各种多智能体环境中展示了其优越性能。

Jun, 2024

MuDreamer: 无需重建学习预测性世界模型

MuDreamer 是一种强大的强化学习代理，它在 DreamerV3 算法的基础上通过学习一种无需重建输入信号的预测世界模型，改善了 Dreamer 在面对视觉干扰时感知关键元素的能力。

May, 2024

深度進化神經反饋與離散世界模型

通过遗传算法，同一物体的不同部分可以被联合训练，得到与分开训练相媲美的性能，该研究进一步证明了深度神经进化在复杂异构体系结构下的有效性。

Apr, 2019

TransDreamer：使用 Transformer World 模型的强化学习

本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer，该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理，并且实现了长程记忆访问的记忆推理。

Feb, 2022