使用并行观测预测改进基于标记的世界模型

Feb, 2024

使用并行观测预测改进基于标记的世界模型

Improving Token-Based World Models with Parallel Observation Prediction

Lior Cohen, Kaixin Wang, Bingyi Kang, Shie Mannor

TL;DR基于语言符号序列的变换器，提出了基于令牌的世界模型（TBWM）。通过引入并行观察预测机制（POP）解决了生成观察的瓶颈问题。将POP应用于TBWM代理REM（保持环境模型），在不到12小时的训练时间内，在Atari 100K基准测试的12个游戏中达到超人的表现。

Abstract

Motivated by the success of transformers when applied to sequences of discrete symbols, token-based world models (TBWMs) were recently proposed as sample-efficient methods. In TBWMs, the world model consumes agen

发现论文，激发创造

离散世界模型掌握Atari

DreamerV2是一种基于world models且在离线的训练集上通过reinforcement learning进行策略(即行为)学习的智能体，用于通过对compact latent space进行预测，实现从Atari游戏或连续动作任务的图像输入中进行行为学习的高效模型，实现了在55个任务中的human-level的性能，获得了与IQN和Rainbow类似的结果。

Oct, 2020

POPGym：部分可观察强化学习基准测试

实际应用中的强化学习（RL）通常是部分可观测的，并且需要记忆。本文提出了一个名为 POPGym 的库，包含多个具有多个困难程度的部分可观测环境和 13 种记忆模型基准实现，并在流行的 RLlib 框架上实现了高层内存 API 和记忆基线，具有可插拔性，且执行了迄今为止最大的 RL 内存模型比较。

Mar, 2023

基于Transformer的世界模型需要100k次交互

使用变换器对真实世界情节进行自回归处理，生成有意义、新的经历，进而训练超越之前强化学习算法的策略。

Mar, 2023

面向世界模型骨干网络的对比: 循环神经网络, Transformer和S4

本文探讨了替代循环神经网络的S4模型和Transformers模型在增强学习模型中的应用及其优势，提出了第一个基于S4模型的世界模型，S4WM，其在各项测试中展现了超越Transformers的长期记忆和训练效率，结果为模型建立打下良好基础。

Jul, 2023

PASTA：预训练的动作-状态Transformer代理

通过自我监督学习，本研究建立了一种预训练行为-状态Transformer代理模型（PASTA），并在行为克隆、离线RL、传感器故障鲁棒性以及动态变化适应等广泛领域的下游任务中进行了综合研究和比较设计选择，以提供有价值的见解给从业者，从而构建更加鲁棒的模型并推动RL策略学习的发展。

Jul, 2023

提高强化学习中的数据效率：基于网格信息传播的新想象力机制

通过引入想象力机制，提高强化学习算法的数据效率，并在四个主流算法（SAC、PPO、DDPG和DQN）中得到了相对较好的性能提升。

Sep, 2023

Hieros: 分级想象结构化状态空间序列世界模型

深度强化学习中的一个主要挑战是样本效率问题，通过使用一种层次化策略与世界模型，可以实现对环境的直接交互训练的辅助，以提高想象效率、准确性和探索能力，并在 Atari 100k 基准测试中表现出卓越的性能。

Oct, 2023

STORM: 基于随机Transformer的高效强化学习世界模型

近年来，基于模型的强化学习算法在视觉输入环境中展现出了显著的效果。本研究介绍了一种名为STORM的高效世界模型架构，它将Transformer的强大序列建模和生成能力与变分自编码器的随机性结合起来，取得了Atari 100k基准测试的均值人类表现为126.7％的成绩，同时在使用单个NVIDIA GeForce RTX 3090显卡进行1.85小时的实时交互训练时仅需4.3小时，证明其相对于之前的方法具有更高的效率。

Oct, 2023

在令牌世界中学习玩Atari游戏

基于模型的增强学习代理利用变换器已经显示出更好的样本效率，因为它们能够对扩展的上下文进行建模，从而得到更准确的世界模型。然而，对于复杂的推理和规划任务，这些方法主要依赖于连续表示，这使得对实际世界的离散属性，例如不可插值的不相交对象类的建模变得复杂。在这项工作中，我们引入了基于变换器学习的离散抽象表示（DART），一种利用离散表示对世界和学习行为进行建模的样本高效方法。我们通过包含变换器-解码器进行自回归世界建模，并通过注意到世界模型的离散表示中与任务相关的线索进行学习行为的变换器编码器。为了处理部分可观测性，我们将过去时刻的信息作为记忆令牌进行聚合。DART在Atari 100k样本效率基准测试中表现优于先前的最先进方法，具有0.790的中位人类标准化分数，并在26个游戏中击败了人类。我们在此https URL上发布我们的代码。

Jun, 2024

具有上下文感知标记化的高效世界模型

通过构建Delta-IRIS，一个世界模型结构，利用离散自编码器和自回归变换器来预测未来时间步的变化量，本研究在Crafter基准测试中取得了新的最高水平，而且训练速度比以前的基于注意力的方法快一个数量级。

Jun, 2024