Iso-Dream：隔离并利用世界模型中不可控制的视觉动态

May, 2022

Iso-Dream：隔离并利用世界模型中不可控制的视觉动态

Iso-Dream: Isolating and Leveraging Noncontrollable Visual Dynamics in World Models

Minting Pan, Xiangming Zhu, Yunbo Wang, Xiaokang Yang

TL;DR本文提出了一种基于强化学习的新方法 Iso-Dream，通过优化逆动力学，鼓励世界模型学习隔离状态之间的可控和不可控源的时空变化，并优化代理在分离的潜在想象中的行为，有效地分离了复杂的动力学，并在一系列视觉控制和预测任务中显著优于现有方法。

Abstract

world models learn the consequences of actions in vision-based interactive systems. However, in practical scenarios such as autonomous driving, there commonly exists noncontrollable dynamics independent of the ac

world models reinforcement learning autonomous driving iso-dream decoupled dynamics

发现论文，激发创造

基于模型的隔离想象强化学习

Iso-Dream++ 提出了一种基于模型的强化学习方法，通过优化逆动力学以及利用分离可控状态转移的混合动态源，对视觉导向交互系统中的动态实现更有效的建模。实证研究证明，在 CARLA 和 DeepMind Control 等控制环境中，Iso-Dream ++ 能够显著优于现有的强化学习模型。

Mar, 2023

控制梦境：通过潜在想象学习行为

使用潜意识想象力，在学习世界模型的基础上，Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务，具有数据效率高，计算时间短和最终性能强等优势。

Dec, 2019

基于模型的视觉演示逆强化学习

本文介绍了一种基于梯度的反向强化学习框架，利用预训练的视觉动态模型从视觉人类演示中学习成本函数，并通过视觉模型预测控制来复制演示行为，以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。

Oct, 2020

通过学习深度反向动力学模型，从模拟环境实现向真实世界的迁移

本文研究了如何将在模拟中成功的控制策略推广到实际机器人上，通过计算模拟根据该策略期望的状态并利用深度逆动力学模型决定哪种真实世界的控制动作最适合实现这些状态，同时提出了一种数据收集方法（逐步）学习深度逆动力学模型。

Oct, 2016

多视角梦境：对比学习的多视角世界模型

本文提出了一个新的强化学习代理，Multi-View Dreaming，用于从多视角观测中进行综合识别和控制。我们使用对比学习来训练不同视角之间的共享潜在空间，并展示了如何使用专家产品方法来集成和控制多个视角的概率分布的潜在状态。我们还提出了 Multi-View DreamingV2，它使用分类分布来建模潜在状态，并证明该方法在实际机器人控制任务中优于现有方法的简单扩展。

Mar, 2022

DriveDreamer：面向实际驱动的自动驾驶世界模型

DriveDreamer 是第一个从真实世界驾驶场景中建立的世界模型，通过使用扩散模型和两阶段训练流程，能够准确地生成高质量驾驶视频，并捕捉到真实世界交通场景的结构约束。

Sep, 2023

DreamingV2: 基于离散世界模型的强化学习方法，无需重构

提出了一种新的强化学习方法 DreamingV2，它是 DreamerV2 和 Dreaming 的协作扩展，与 DreamingV2 的离散表示和 Dreaming 的无重构目标相比，DreamingV2 在 3D 机器人臂任务上取得了最佳成绩，适用于描述不连续环境的离散表示以及管理复杂视觉观察的无重构方式，是一种可靠的机器人学习解决方案。

Mar, 2022

使用逆动力学模型从像素规划

提出了一种新的方法来学习依赖任务完成的未来动作序列预测的潜在世界模型，该模型适应地关注任务相关的动态学习，并同时充当稀疏奖励下计划的有效启发式方法，通过挑战性的视觉目标完成任务的评估，我们发现该方法较之前的无模型方法在性能上有了显著提高。

Dec, 2020

离散世界模型掌握 Atari

DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体，用于通过对 compact latent space 进行预测，实现从 Atari 游戏或连续动作任务的图像输入中进行行为学习的高效模型，实现了在 55 个任务中的 human-level 的性能，获得了与 IQN 和 Rainbow 类似的结果。

Oct, 2020

具有逆动力学表示的稳健视觉模仿学习

我们提出了一种新颖的鲁棒模仿学习方法，通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境，通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性，从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能，并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。

Oct, 2023