适用于样本高效的物理世界建模的变压器和插槽编码
感知和推理个体物体及其相互作用是构建智能人工系统的目标,而 Slot Structured World Models 是一种结合基于 Slot Attention 的物体中心化编码器和潜在图形动力学模型的世界模型,用于解决当前方法在提取物体表示和区分相似物体方面存在的问题。
Jan, 2024
IRIS 是一个深度强化学习代理,学习于由离散自动编码器和自回归 Transformer 组成的世界模型中,仅用两小时的时间即可在 Atari 100k 基准测试中实现 1.046 的平均人类标准化得分,在 26 个游戏中有 10 个游戏超过了人类的表现,是一种有效的世界模型学习方法。
Sep, 2022
通过构建 Delta-IRIS,一个世界模型结构,利用离散自编码器和自回归变换器来预测未来时间步的变化量,本研究在 Crafter 基准测试中取得了新的最高水平,而且训练速度比以前的基于注意力的方法快一个数量级。
Jun, 2024
基于模型的增强学习代理利用变换器已经显示出更好的样本效率,因为它们能够对扩展的上下文进行建模,从而得到更准确的世界模型。然而,对于复杂的推理和规划任务,这些方法主要依赖于连续表示,这使得对实际世界的离散属性,例如不可插值的不相交对象类的建模变得复杂。在这项工作中,我们引入了基于变换器学习的离散抽象表示(DART),一种利用离散表示对世界和学习行为进行建模的样本高效方法。我们通过包含变换器 - 解码器进行自回归世界建模,并通过注意到世界模型的离散表示中与任务相关的线索进行学习行为的变换器编码器。为了处理部分可观测性,我们将过去时刻的信息作为记忆令牌进行聚合。DART 在 Atari 100k 样本效率基准测试中表现优于先前的最先进方法,具有 0.790 的中位人类标准化分数,并在 26 个游戏中击败了人类。我们在此 https URL 上发布我们的代码。
Jun, 2024
近年来,基于模型的强化学习算法在视觉输入环境中展现出了显著的效果。本研究介绍了一种名为 STORM 的高效世界模型架构,它将 Transformer 的强大序列建模和生成能力与变分自编码器的随机性结合起来,取得了 Atari 100k 基准测试的均值人类表现为 126.7%的成绩,同时在使用单个 NVIDIA GeForce RTX 3090 显卡进行 1.85 小时的实时交互训练时仅需 4.3 小时,证明其相对于之前的方法具有更高的效率。
Oct, 2023
本研究论文介绍了一种使用 Transformer 进行视频识别的模型,相较于其他视频识别模型,本模型计算效率更高。为实现此目的,本模型对全时空注意力机制进行两种简化处理:(a) 限制时间注意力于局部时间窗口内,(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理,而不增加任何额外的成本。
Jun, 2021
本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。
Mar, 2018
本文提出了一种名为 SloTTAr 的新算法,该算法使用 Slot Attention 模块和自适应计算来学习关于无监督学习中子程序数量的信息,相比于竞争基线模型具有更好的性能和更快的训练速度。
Mar, 2022