梦想着众多世界：学习上下文世界模型助于零样本泛化

Mar, 2024

梦想着众多世界：学习上下文世界模型助于零样本泛化

Dreaming of Many Worlds: Learning Contextual World Models Aids Zero-Shot Generalization

Sai Prasanna, Karim Farid, Raghu Rajan, André Biedenkapp

TL;DR提出了一种称为 cRSSM 的上下文循环状态空间模型，该模型通过将上下文与观察值结合起来，改进了 Dreamer 的世界模型，从而提高了在未见上下文情况下训练的策略的零 - shot 泛化能力。

Abstract

zero-shot generalization (ZSG) to unseen dynamics is a major challenge for creating generally capable embodied agents. To address the broader challenge, we start with the simpler setting of contextual reinforcement lear

zero-shot generalization contextual reinforcement learning contextual recurrent state-space model latent dynamics dreamer

发现论文，激发创造

推断行为特定的上下文在强化学习中提升零样本泛化能力

本文中，我们在强化学习中解决了零样本泛化的挑战，通过理解和利用环境的上下文线索，将上下文表示的学习与策略学习相结合，提出了一种算法。我们的算法在各种模拟域中展示了改进的泛化能力，在零样本情境中优于先前的上下文学习技术。通过同时学习策略和上下文，我们的方法获得了特定行为的上下文表示，在未知环境中实现了适应，并在实现跨不同真实世界任务的强化学习系统上取得了进展。

Apr, 2024

多视角梦境：对比学习的多视角世界模型

本文提出了一个新的强化学习代理，Multi-View Dreaming，用于从多视角观测中进行综合识别和控制。我们使用对比学习来训练不同视角之间的共享潜在空间，并展示了如何使用专家产品方法来集成和控制多个视角的概率分布的潜在状态。我们还提出了 Multi-View DreamingV2，它使用分类分布来建模潜在状态，并证明该方法在实际机器人控制任务中优于现有方法的简单扩展。

Mar, 2022

通过语义引导的生成随机游走实现持续的零样本学习

通过利用生成建模，我们提出了一个学习算法，在没有给定未知信息的情况下持续进行零样本学习，并在 AWA1、AWA2、CUB 和 SUN 数据集上实现了超出现有连续零样本学习方法的 3-7% 的最新性能。

Aug, 2023

DreamingV2: 基于离散世界模型的强化学习方法，无需重构

提出了一种新的强化学习方法 DreamingV2，它是 DreamerV2 和 Dreaming 的协作扩展，与 DreamingV2 的离散表示和 Dreaming 的无重构目标相比，DreamingV2 在 3D 机器人臂任务上取得了最佳成绩，适用于描述不连续环境的离散表示以及管理复杂视觉观察的无重构方式，是一种可靠的机器人学习解决方案。

Mar, 2022

通过变分稀疏门控学习鲁棒动力学

本文研究了如何在稀疏交互的情形下，通过学习从感官输入中生成世界模型的方法，提高在具有许多物体的环境中的运动样本效率。我们提出了一种称为变分稀疏门控的潜在动力学模型和简化架构，并在具有大量移动对象和部分可观测性的 BringBackShapes 环境中进行了评估，表明这种方法可以优于之前的模型。

Oct, 2022

基于上下文感知的模型动态学习在强化学习中的泛化应用

该论文提出了一种用于强化学习中学习动态全局模型的方法，通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的，并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力，超过了现有的强化学习方案。

May, 2020

Dropout 的梦幻之地：从学习模拟器到现实的泛化

本研究探索从梦境环境到真实环境的通用方法 Drean2Real。借鉴于领域随机化，结合使用丢失（Dropout）技术，我们使用具有可配置参数的世界模型训练来创建多样的梦境环境，提高控制器从神经网络梦境环境到现实环境转移的能力，并证实了丢失梦幻世界技术是弥合梦境环境和现实环境的差距的有效技术。

Sep, 2021

Safe DreamerV3：基于世界模型的安全强化学习

本文介绍了一种将拉格朗日方法和规划方法融合到世界模型中的算法 Safe DreamerV3，这是首个在 Safety-Gymnasium benchmark 中能够在低维和仅依靠视觉的任务中实现近乎零成本的 SafeRL 算法。

Jul, 2023

控制梦境：通过潜在想象学习行为

使用潜意识想象力，在学习世界模型的基础上，Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务，具有数据效率高，计算时间短和最终性能强等优势。

Dec, 2019

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018