Transformer 是高效样本的世界模型

ICLRSep, 2022

Transformers are Sample-Efficient World Models

Vincent Micheli, Eloi Alonso, François Fleuret

TL;DRIRIS 是一个深度强化学习代理，学习于由离散自动编码器和自回归 Transformer 组成的世界模型中，仅用两小时的时间即可在 Atari 100k 基准测试中实现 1.046 的平均人类标准化得分，在 26 个游戏中有 10 个游戏超过了人类的表现，是一种有效的世界模型学习方法。

Abstract

deep reinforcement learning agents are notoriously sample inefficient, which considerably limits their application to real-world problems. Recently, many model-based methods have been designed to address this iss

deep reinforcement learning model-based methods imagination of a world model autoregressive transformer data-efficient agent

发现论文，激发创造

具有上下文感知标记化的高效世界模型

通过构建 Delta-IRIS，一个世界模型结构，利用离散自编码器和自回归变换器来预测未来时间步的变化量，本研究在 Crafter 基准测试中取得了新的最高水平，而且训练速度比以前的基于注意力的方法快一个数量级。

Jun, 2024

基于 Transformer 的世界模型需要 100k 次交互

使用变换器对真实世界情节进行自回归处理，生成有意义、新的经历，进而训练超越之前强化学习算法的策略。

Mar, 2023

在令牌世界中学习玩 Atari 游戏

基于模型的增强学习代理利用变换器已经显示出更好的样本效率，因为它们能够对扩展的上下文进行建模，从而得到更准确的世界模型。然而，对于复杂的推理和规划任务，这些方法主要依赖于连续表示，这使得对实际世界的离散属性，例如不可插值的不相交对象类的建模变得复杂。在这项工作中，我们引入了基于变换器学习的离散抽象表示（DART），一种利用离散表示对世界和学习行为进行建模的样本高效方法。我们通过包含变换器 - 解码器进行自回归世界建模，并通过注意到世界模型的离散表示中与任务相关的线索进行学习行为的变换器编码器。为了处理部分可观测性，我们将过去时刻的信息作为记忆令牌进行聚合。DART 在 Atari 100k 样本效率基准测试中表现优于先前的最先进方法，具有 0.790 的中位人类标准化分数，并在 26 个游戏中击败了人类。我们在此 https URL 上发布我们的代码。

Jun, 2024

STORM: 基于随机 Transformer 的高效强化学习世界模型

近年来，基于模型的强化学习算法在视觉输入环境中展现出了显著的效果。本研究介绍了一种名为 STORM 的高效世界模型架构，它将 Transformer 的强大序列建模和生成能力与变分自编码器的随机性结合起来，取得了 Atari 100k 基准测试的均值人类表现为 126.7％的成绩，同时在使用单个 NVIDIA GeForce RTX 3090 显卡进行 1.85 小时的实时交互训练时仅需 4.3 小时，证明其相对于之前的方法具有更高的效率。

Oct, 2023

离散世界模型掌握 Atari

DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体，用于通过对 compact latent space 进行预测，实现从 Atari 游戏或连续动作任务的图像输入中进行行为学习的高效模型，实现了在 55 个任务中的 human-level 的性能，获得了与 IQN 和 Rainbow 类似的结果。

Oct, 2020

适用于样本高效的物理世界建模的变压器和插槽编码

通过将变压器架构与槽关注范式相结合，本文提出了一种用于世界建模的神经架构，实验证明在样本效率和性能变化减少方面相比现有解决方案有所改进。

May, 2024

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022

分散的变压器与集中的聚合是高效的多智能体世界模型

为了解决多智能体强化学习中的可扩展性和非稳态性问题，我们提出了一种新的多智能体世界模型，通过学习分散的局部动力学来实现可扩展性，并通过中心化表示的聚合来解决非稳态性问题。我们引入了 Perceiver Transformer 作为一种有效的解决方案，通过 Transformer 体系结构对复杂的局部动力学进行建模，从而提供准确而一致的长期想象。在 Starcraft Multi-Agent Challenge（SMAC）上的结果显示，该模型在样本效率和整体性能方面优于强化学习和现有的基于模型的方法。

Jun, 2024

TransDreamer：使用 Transformer World 模型的强化学习

本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer，该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理，并且实现了长程记忆访问的记忆推理。

Feb, 2022

后见之链中崛起的代理变形机

本文利用 “chain of hindsight” 方法在强化学习中训练了一个能够直接综合多个轨迹信息的 transformer 模型，并通过在 D4RL 和 ExoRL 基准测试中的表现证明了它的竞争力和可伸缩性。

May, 2023