控制梦境：通过潜在想象学习行为

Dec, 2019

控制梦境：通过潜在想象学习行为

Dream to Control: Learning Behaviors by Latent Imagination

Danijar Hafner, Timothy Lillicrap, Jimmy Ba, Mohammad Norouzi

TL;DR使用潜意识想象力，在学习世界模型的基础上，Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务，具有数据效率高，计算时间短和最终性能强等优势。

Abstract

learned world models summarize an agent's experience to facilitate learning complex behaviors. While learning world models from high-dimensional sensory inputs is becoming feasible through deep learning, there ar

learned world models deep learning reinforcement learning visual control tasks latent imagination

发现论文，激发创造

离散世界模型掌握 Atari

DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体，用于通过对 compact latent space 进行预测，实现从 Atari 游戏或连续动作任务的图像输入中进行行为学习的高效模型，实现了在 55 个任务中的 human-level 的性能，获得了与 IQN 和 Rainbow 类似的结果。

Oct, 2020

DayDreamer: 物理机器人学习的世界模型

本文介绍了 Dreamer 算法在物理机器人上应用的实验，证明了该算法能够使得机器人在真实世界中进行快速学习和适应，同时建立了实际环境下世界模型应用于机器人学习的强基线。

Jun, 2022

无需重构潜在想象的基于模型的强化学习

本文提出了一种无解码器的扩展 Dreamer（基于图像的模型基强化学习方法）来提高机器人学习效率，并在 5 个仿真机器人任务中表现出更好的性能，主要使用了对比学习方法和自编码器神经网络技术。

Jul, 2020

MuDreamer: 无需重建学习预测性世界模型

MuDreamer 是一种强大的强化学习代理，它在 DreamerV3 算法的基础上通过学习一种无需重建输入信号的预测世界模型，改善了 Dreamer 在面对视觉干扰时感知关键元素的能力。

May, 2024

梦想适应：通过潜在目标想象和马尔可夫决策过程想象的元强化学习

MetaDreamer 是一种基于上下文的元强化学习算法，通过元想象和 MDP 想象来减少实际训练任务和数据的需求，在学习未知任务时通过从类似任务中转移先前学习的知识，实验结果表明 MetaDreamer 在数据效率和插值推广方面胜过现有的方法。

Nov, 2023

DreamingV2: 基于离散世界模型的强化学习方法，无需重构

提出了一种新的强化学习方法 DreamingV2，它是 DreamerV2 和 Dreaming 的协作扩展，与 DreamingV2 的离散表示和 Dreaming 的无重构目标相比，DreamingV2 在 3D 机器人臂任务上取得了最佳成绩，适用于描述不连续环境的离散表示以及管理复杂视觉观察的无重构方式，是一种可靠的机器人学习解决方案。

Mar, 2022

多视角梦境：对比学习的多视角世界模型

本文提出了一个新的强化学习代理，Multi-View Dreaming，用于从多视角观测中进行综合识别和控制。我们使用对比学习来训练不同视角之间的共享潜在空间，并展示了如何使用专家产品方法来集成和控制多个视角的概率分布的潜在状态。我们还提出了 Multi-View DreamingV2，它使用分类分布来建模潜在状态，并证明该方法在实际机器人控制任务中优于现有方法的简单扩展。

Mar, 2022

基于模型的隔离想象强化学习

Iso-Dream++ 提出了一种基于模型的强化学习方法，通过优化逆动力学以及利用分离可控状态转移的混合动态源，对视觉导向交互系统中的动态实现更有效的建模。实证研究证明，在 CARLA 和 DeepMind Control 等控制环境中，Iso-Dream ++ 能够显著优于现有的强化学习模型。

Mar, 2023

TransDreamer：使用 Transformer World 模型的强化学习

本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer，该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理，并且实现了长程记忆访问的记忆推理。

Feb, 2022

DreamerPro: 无需重建的基于模型的原型表示强化学习

本研究旨在提高基于模型的强化学习代理在处理视觉干扰方面的鲁棒性。我们提出了一种从世界模型的循环状态中学习原型表示的方法，将过去的观察和动作中的时间结构提取为原型。DreamerPro 模型通过将 Dreamer 与原型组合起来，在标准设置和存在复杂背景干扰的情况下都取得了大幅性能提高。

Oct, 2021