DreamerPro: 无需重建的基于模型的原型表示强化学习

Oct, 2021

DreamerPro: 无需重建的基于模型的原型表示强化学习

DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with Prototypical Representations

Fei Deng, Ingook Jang, Sungjin Ahn

TL;DR本研究旨在提高基于模型的强化学习代理在处理视觉干扰方面的鲁棒性。我们提出了一种从世界模型的循环状态中学习原型表示的方法，将过去的观察和动作中的时间结构提取为原型。DreamerPro 模型通过将 Dreamer 与原型组合起来，在标准设置和存在复杂背景干扰的情况下都取得了大幅性能提高。

Abstract

Top-performing model-based reinforcement learning (MBRL) agents, such as Dreamer, learn the world model by reconstructing the image observations. Hence, they often fail to discard task-irrelevant details and struggle to handle visual →

model-based reinforcement learning distractions prototypical representations temporal dynamics learning dreamerpro

发现论文，激发创造

学习潜在动态健壮表示的世界模型

利用视觉模型仿真提升强化学习效果，通过空时屏蔽策略和混合循环状态空间模型来准确捕捉环境的重要特征，以提高策略的学习与表现。

May, 2024

MuDreamer: 无需重建学习预测性世界模型

MuDreamer 是一种强大的强化学习代理，它在 DreamerV3 算法的基础上通过学习一种无需重建输入信号的预测世界模型，改善了 Dreamer 在面对视觉干扰时感知关键元素的能力。

May, 2024

TransDreamer：使用 Transformer World 模型的强化学习

本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer，该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理，并且实现了长程记忆访问的记忆推理。

Feb, 2022

无需重构潜在想象的基于模型的强化学习

本文提出了一种无解码器的扩展 Dreamer（基于图像的模型基强化学习方法）来提高机器人学习效率，并在 5 个仿真机器人任务中表现出更好的性能，主要使用了对比学习方法和自编码器神经网络技术。

Jul, 2020

DreamingV2: 基于离散世界模型的强化学习方法，无需重构

提出了一种新的强化学习方法 DreamingV2，它是 DreamerV2 和 Dreaming 的协作扩展，与 DreamingV2 的离散表示和 Dreaming 的无重构目标相比，DreamingV2 在 3D 机器人臂任务上取得了最佳成绩，适用于描述不连续环境的离散表示以及管理复杂视觉观察的无重构方式，是一种可靠的机器人学习解决方案。

Mar, 2022

感知、想象、行动：多模态感知改进基于模型的自主竞赛强化学习

该研究提出了一种自监督传感器融合技术，将自身视觉 LiDAR 和 RGB 相机观测数据相结合，应用于模型驱动的强化学习领域，通过提高状态估计来改善其准确性，并在零样本场景下验证了其有效性。

May, 2023

控制梦境：通过潜在想象学习行为

使用潜意识想象力，在学习世界模型的基础上，Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务，具有数据效率高，计算时间短和最终性能强等优势。

Dec, 2019

使用典型表示的强化学习

Proto-RL 是一种基于自我监督的框架，将表示学习与探索相结合，通过原型表示来实现，从而解决了强化学习中表示学习与探索之间的挑战，并在不带下游任务信息的环境中预训练这些任务无关的表示和原型，实现了一组困难的连续控制任务的最新下游策略学习。

Feb, 2021

DayDreamer: 物理机器人学习的世界模型

本文介绍了 Dreamer 算法在物理机器人上应用的实验，证明了该算法能够使得机器人在真实世界中进行快速学习和适应，同时建立了实际环境下世界模型应用于机器人学习的强基线。

Jun, 2022

离散世界模型掌握 Atari

DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体，用于通过对 compact latent space 进行预测，实现从 Atari 游戏或连续动作任务的图像输入中进行行为学习的高效模型，实现了在 55 个任务中的 human-level 的性能，获得了与 IQN 和 Rainbow 类似的结果。

Oct, 2020