基于 Transformer 的世界模型需要 100k 次交互

ICLRMar, 2023

基于 Transformer 的世界模型需要 100k 次交互

Transformer-based World Models Are Happy With 100k Interactions

Jan Robine, Marc Höftmann, Tobias Uelwer, Stefan Harmeling

TL;DR使用变换器对真实世界情节进行自回归处理，生成有意义、新的经历，进而训练超越之前强化学习算法的策略。

Abstract

deep neural networks have been successful in many reinforcement learning settings. However, compared to human learners they are overly data hungry. To build a sample-efficient →

deep neural networks reinforcement learning transformer world model policy

发现论文，激发创造

Transformer 是高效样本的世界模型

IRIS 是一个深度强化学习代理，学习于由离散自动编码器和自回归 Transformer 组成的世界模型中，仅用两小时的时间即可在 Atari 100k 基准测试中实现 1.046 的平均人类标准化得分，在 26 个游戏中有 10 个游戏超过了人类的表现，是一种有效的世界模型学习方法。

Sep, 2022

TransDreamer：使用 Transformer World 模型的强化学习

本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer，该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理，并且实现了长程记忆访问的记忆推理。

Feb, 2022

Transformer 世界模型提供更佳的策略梯度吗？

使用 Actions World Models (AWMs) 解决传统 transformer world models 生成的迂回梯度路径问题，在长期视野任务中产生更好的策略。

Feb, 2024

STORM: 基于随机 Transformer 的高效强化学习世界模型

近年来，基于模型的强化学习算法在视觉输入环境中展现出了显著的效果。本研究介绍了一种名为 STORM 的高效世界模型架构，它将 Transformer 的强大序列建模和生成能力与变分自编码器的随机性结合起来，取得了 Atari 100k 基准测试的均值人类表现为 126.7％的成绩，同时在使用单个 NVIDIA GeForce RTX 3090 显卡进行 1.85 小时的实时交互训练时仅需 4.3 小时，证明其相对于之前的方法具有更高的效率。

Oct, 2023

变形金刚是元强化学习算法

本文介绍了 TrMRL，这是一种运用 Transformer 架构的基于元强化学习的代理（Meta-Reinforcement Learning Algorithm），它结合了最近的工作内存以递归方式构建情境记忆，并利用 self-attention 机制计算和提供有意义的特征以执行最佳任务。研究表明，在高维连续控制环境下，TrMRL 相对于基线模型表现出了相当或优异的收敛性能、采样效率和超出分布范围的概况。

Jun, 2022

具有上下文感知标记化的高效世界模型

通过构建 Delta-IRIS，一个世界模型结构，利用离散自编码器和自回归变换器来预测未来时间步的变化量，本研究在 Crafter 基准测试中取得了新的最高水平，而且训练速度比以前的基于注意力的方法快一个数量级。

Jun, 2024

分散的变压器与集中的聚合是高效的多智能体世界模型

为了解决多智能体强化学习中的可扩展性和非稳态性问题，我们提出了一种新的多智能体世界模型，通过学习分散的局部动力学来实现可扩展性，并通过中心化表示的聚合来解决非稳态性问题。我们引入了 Perceiver Transformer 作为一种有效的解决方案，通过 Transformer 体系结构对复杂的局部动力学进行建模，从而提供准确而一致的长期想象。在 Starcraft Multi-Agent Challenge（SMAC）上的结果显示，该模型在样本效率和整体性能方面优于强化学习和现有的基于模型的方法。

Jun, 2024

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022

后见之链中崛起的代理变形机

本文利用 “chain of hindsight” 方法在强化学习中训练了一个能够直接综合多个轨迹信息的 transformer 模型，并通过在 D4RL 和 ExoRL 基准测试中的表现证明了它的竞争力和可伸缩性。

May, 2023

在令牌世界中学习玩 Atari 游戏

基于模型的增强学习代理利用变换器已经显示出更好的样本效率，因为它们能够对扩展的上下文进行建模，从而得到更准确的世界模型。然而，对于复杂的推理和规划任务，这些方法主要依赖于连续表示，这使得对实际世界的离散属性，例如不可插值的不相交对象类的建模变得复杂。在这项工作中，我们引入了基于变换器学习的离散抽象表示（DART），一种利用离散表示对世界和学习行为进行建模的样本高效方法。我们通过包含变换器 - 解码器进行自回归世界建模，并通过注意到世界模型的离散表示中与任务相关的线索进行学习行为的变换器编码器。为了处理部分可观测性，我们将过去时刻的信息作为记忆令牌进行聚合。DART 在 Atari 100k 样本效率基准测试中表现优于先前的最先进方法，具有 0.790 的中位人类标准化分数，并在 26 个游戏中击败了人类。我们在此 https URL 上发布我们的代码。

Jun, 2024