多游戏决策转换器

May, 2022

Multi-Game Decision Transformers

Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang, Lisa Lee, Daniel Freeman...

TL;DR本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

Abstract

A longstanding goal of the field of ai is a method for learning a highly capable, generalist agent from diverse experience. In the subfields of vision and language, this was largely achieved by scaling up transformer-ba

ai transformer-based models reinforcement learning atari games multi-game decision transformer models

发现论文，激发创造

读动即玩（R2-Play）：多模态游戏指令决策转换器

本文针对人工智能中发展通用型代理的目标，研究了多任务学习和决策网络以及多模态游戏指令对代理的指导与改进作用，并通过实验证明多模态游戏指令的引入显著提升了决策变换器在多任务和泛化能力方面的表现。

Feb, 2024

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

后见之链中崛起的代理变形机

本文利用 “chain of hindsight” 方法在强化学习中训练了一个能够直接综合多个轨迹信息的 transformer 模型，并通过在 D4RL 和 ExoRL 基准测试中的表现证明了它的竞争力和可伸缩性。

May, 2023

离线演员 - 评论家强化学习在大规模模型中的扩展

离线演员 - 评论家强化学习能够扩展到大规模模型（如变压器）并遵循监督学习的相似扩展规律。我们发现，离线演员 - 评论家算法在 132 个连续控制任务的大型数据集上的多任务训练中，能够优于强大的监督式行为克隆基线。我们引入了一种基于感知机的离线演员 - 评论家模型，并阐明了使离线强化学习与自注意力和跨注意力模块配合工作的关键模型特征。总体而言，我们发现：i）简单的离线演员评论家算法是逐渐摆脱当前主导的行为克隆范式的自然选择，ii）通过离线强化学习，可以从次优示范或自生成数据中学习掌握多个领域的多任务策略，包括真实的机器人任务。

Feb, 2024

基于 Transformer 的世界模型需要 100k 次交互

使用变换器对真实世界情节进行自回归处理，生成有意义、新的经历，进而训练超越之前强化学习算法的策略。

Mar, 2023

不联机 Q 学习在多样化的多任务数据上进行同时扩展和泛化

本文提出提高离线强化学习性能的方法：使用 ResNets、基于交叉熵的分布备份、特征标准化，取得了良好的性能和容量扩展性。同时，作者展示了通过多样化数据集的离线 Q 学习可以学习到有用的表示，并实现快速传输到新游戏和在线学习的目标。

Nov, 2022

Q-Transformer: 基于自回归 Q 函数的可扩展离线强化学习

本文介绍了一种用于训练多任务策略的可扩展强化学习方法，该方法可以利用人类示范和自主收集的数据。通过使用 Transformer 作为 Q 函数的可扩展表示方法，并应用于离线时间差分备份的训练中，我们称之为 Q-Transformer。通过将每个动作维度离散化并将每个动作维度的 Q 值表示为单独的标记，我们可以应用有效的高容量序列建模技术进行 Q 学习。我们还提出了几个设计决策，使得 Q-Transformer 在离线强化学习训练中表现出良好性能，并且在大型多样的真实世界机器人操纵任务套件上，Q-Transformer 优于先前的离线强化学习算法和模仿学习技术。项目的网站和视频可在此 URL 找到。

Sep, 2023

行动前先思考：将语言推理与行动交错的统一策略

提出了一种将 Transformer 模型与强化学习相结合，并在 BabyAI 任务上表现出色的新方法，其中模型输出既包含动作，也包含文本描述。

Apr, 2023

Transformer 是高效样本的世界模型

IRIS 是一个深度强化学习代理，学习于由离散自动编码器和自回归 Transformer 组成的世界模型中，仅用两小时的时间即可在 Atari 100k 基准测试中实现 1.046 的平均人类标准化得分，在 26 个游戏中有 10 个游戏超过了人类的表现，是一种有效的世界模型学习方法。

Sep, 2022