适用于样本高效的物理世界建模的变压器和插槽编码

May, 2024

适用于样本高效的物理世界建模的变压器和插槽编码

Transformers and Slot Encoding for Sample Efficient Physical World Modelling

Francesco Petri, Luigi Asprino, Aldo Gangemi

TL;DR通过将变压器架构与槽关注范式相结合，本文提出了一种用于世界建模的神经架构，实验证明在样本效率和性能变化减少方面相比现有解决方案有所改进。

Abstract

world modelling, i.e. building a representation of the rules that govern the world so as to predict its evolution, is an essential ability for any agent interacting with the physical world. Recent applications of the Transformer architecture to the problem of →

world modelling transformer architecture slot-attention paradigm sample efficiency neural architecture

发现论文，激发创造

槽位结构化世界模型

感知和推理个体物体及其相互作用是构建智能人工系统的目标，而 Slot Structured World Models 是一种结合基于 Slot Attention 的物体中心化编码器和潜在图形动力学模型的世界模型，用于解决当前方法在提取物体表示和区分相似物体方面存在的问题。

Jan, 2024

Transformer 是高效样本的世界模型

IRIS 是一个深度强化学习代理，学习于由离散自动编码器和自回归 Transformer 组成的世界模型中，仅用两小时的时间即可在 Atari 100k 基准测试中实现 1.046 的平均人类标准化得分，在 26 个游戏中有 10 个游戏超过了人类的表现，是一种有效的世界模型学习方法。

Sep, 2022

基于 Transformer 的世界模型需要 100k 次交互

使用变换器对真实世界情节进行自回归处理，生成有意义、新的经历，进而训练超越之前强化学习算法的策略。

Mar, 2023

具有上下文感知标记化的高效世界模型

通过构建 Delta-IRIS，一个世界模型结构，利用离散自编码器和自回归变换器来预测未来时间步的变化量，本研究在 Crafter 基准测试中取得了新的最高水平，而且训练速度比以前的基于注意力的方法快一个数量级。

Jun, 2024

在令牌世界中学习玩 Atari 游戏

基于模型的增强学习代理利用变换器已经显示出更好的样本效率，因为它们能够对扩展的上下文进行建模，从而得到更准确的世界模型。然而，对于复杂的推理和规划任务，这些方法主要依赖于连续表示，这使得对实际世界的离散属性，例如不可插值的不相交对象类的建模变得复杂。在这项工作中，我们引入了基于变换器学习的离散抽象表示（DART），一种利用离散表示对世界和学习行为进行建模的样本高效方法。我们通过包含变换器 - 解码器进行自回归世界建模，并通过注意到世界模型的离散表示中与任务相关的线索进行学习行为的变换器编码器。为了处理部分可观测性，我们将过去时刻的信息作为记忆令牌进行聚合。DART 在 Atari 100k 样本效率基准测试中表现优于先前的最先进方法，具有 0.790 的中位人类标准化分数，并在 26 个游戏中击败了人类。我们在此 https URL 上发布我们的代码。

Jun, 2024

STORM: 基于随机 Transformer 的高效强化学习世界模型

近年来，基于模型的强化学习算法在视觉输入环境中展现出了显著的效果。本研究介绍了一种名为 STORM 的高效世界模型架构，它将 Transformer 的强大序列建模和生成能力与变分自编码器的随机性结合起来，取得了 Atari 100k 基准测试的均值人类表现为 126.7％的成绩，同时在使用单个 NVIDIA GeForce RTX 3090 显卡进行 1.85 小时的实时交互训练时仅需 4.3 小时，证明其相对于之前的方法具有更高的效率。

Oct, 2023

视频 Transformer 的时空混合注意力

本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Jun, 2021

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

基于槽位变形器的时间抽象非监督学习

本文提出了一种名为 SloTTAr 的新算法，该算法使用 Slot Attention 模块和自适应计算来学习关于无监督学习中子程序数量的信息，相比于竞争基线模型具有更好的性能和更快的训练速度。

Mar, 2022

基于插槽注意力的目标中心学习

本文提出了一个名为 Slot Attention 的架构组件，它能够从低级感知特征中提取物体为中心的表示，并能够推广到未见组合。

Jun, 2020