具有上下文感知标记化的高效世界模型

ICMLJun, 2024

具有上下文感知标记化的高效世界模型

Efficient World Models with Context-Aware Tokenization

Vincent Micheli, Eloi Alonso, François Fleuret

TL;DR通过构建 Delta-IRIS，一个世界模型结构，利用离散自编码器和自回归变换器来预测未来时间步的变化量，本研究在 Crafter 基准测试中取得了新的最高水平，而且训练速度比以前的基于注意力的方法快一个数量级。

Abstract

scaling up deep reinforcement learning (RL) methods presents a significant challenge. Following developments in generative modelling, model-based

scaling up deep reinforcement learning model-based rl world models autoregressive transformer

发现论文，激发创造

Transformer 是高效样本的世界模型

IRIS 是一个深度强化学习代理，学习于由离散自动编码器和自回归 Transformer 组成的世界模型中，仅用两小时的时间即可在 Atari 100k 基准测试中实现 1.046 的平均人类标准化得分，在 26 个游戏中有 10 个游戏超过了人类的表现，是一种有效的世界模型学习方法。

Sep, 2022

在令牌世界中学习玩 Atari 游戏

基于模型的增强学习代理利用变换器已经显示出更好的样本效率，因为它们能够对扩展的上下文进行建模，从而得到更准确的世界模型。然而，对于复杂的推理和规划任务，这些方法主要依赖于连续表示，这使得对实际世界的离散属性，例如不可插值的不相交对象类的建模变得复杂。在这项工作中，我们引入了基于变换器学习的离散抽象表示（DART），一种利用离散表示对世界和学习行为进行建模的样本高效方法。我们通过包含变换器 - 解码器进行自回归世界建模，并通过注意到世界模型的离散表示中与任务相关的线索进行学习行为的变换器编码器。为了处理部分可观测性，我们将过去时刻的信息作为记忆令牌进行聚合。DART 在 Atari 100k 样本效率基准测试中表现优于先前的最先进方法，具有 0.790 的中位人类标准化分数，并在 26 个游戏中击败了人类。我们在此 https URL 上发布我们的代码。

Jun, 2024

基于 Transformer 的世界模型需要 100k 次交互

使用变换器对真实世界情节进行自回归处理，生成有意义、新的经历，进而训练超越之前强化学习算法的策略。

Mar, 2023

STORM: 基于随机 Transformer 的高效强化学习世界模型

近年来，基于模型的强化学习算法在视觉输入环境中展现出了显著的效果。本研究介绍了一种名为 STORM 的高效世界模型架构，它将 Transformer 的强大序列建模和生成能力与变分自编码器的随机性结合起来，取得了 Atari 100k 基准测试的均值人类表现为 126.7％的成绩，同时在使用单个 NVIDIA GeForce RTX 3090 显卡进行 1.85 小时的实时交互训练时仅需 4.3 小时，证明其相对于之前的方法具有更高的效率。

Oct, 2023

TransDreamer：使用 Transformer World 模型的强化学习

本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer，该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理，并且实现了长程记忆访问的记忆推理。

Feb, 2022

分散的变压器与集中的聚合是高效的多智能体世界模型

为了解决多智能体强化学习中的可扩展性和非稳态性问题，我们提出了一种新的多智能体世界模型，通过学习分散的局部动力学来实现可扩展性，并通过中心化表示的聚合来解决非稳态性问题。我们引入了 Perceiver Transformer 作为一种有效的解决方案，通过 Transformer 体系结构对复杂的局部动力学进行建模，从而提供准确而一致的长期想象。在 Starcraft Multi-Agent Challenge（SMAC）上的结果显示，该模型在样本效率和整体性能方面优于强化学习和现有的基于模型的方法。

Jun, 2024

通过离散扩散学习自主驾驶的无监督世界模型

通过将传感器观测结果进行标记化并使用离散扩散方法预测未来情况，我们提出了一种新的世界建模方法，可以显著改进学习点云观测的世界模型，并在自动驾驶等机器人应用中实现了超过 65％的 Chamfer 距离缩减（1s 预测）和超过 50％的 Chamfer 距离缩减（3s 预测）。结果表明，对标记化的机器人经验进行离散扩散可以启用类似 GPT 的无监督学习方法，以提高机器人代理的性能。

Nov, 2023

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

Hieros: 分级想象结构化状态空间序列世界模型

深度强化学习中的一个主要挑战是样本效率问题，通过使用一种层次化策略与世界模型，可以实现对环境的直接交互训练的辅助，以提高想象效率、准确性和探索能力，并在 Atari 100k 基准测试中表现出卓越的性能。

Oct, 2023

离散世界模型掌握 Atari

DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体，用于通过对 compact latent space 进行预测，实现从 Atari 游戏或连续动作任务的图像输入中进行行为学习的高效模型，实现了在 55 个任务中的 human-level 的性能，获得了与 IQN 和 Rainbow 类似的结果。

Oct, 2020