UPDeT：基于 Transformer 的策略解耦通用多智能体强化学习

Jan, 2021

UPDeT：基于 Transformer 的策略解耦通用多智能体强化学习

UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers

Siyi Hu, Fengda Zhu, Xiaojun Chang, Xiaodan Liang

TL;DR本文提出了一种称为 Universal Policy Decoupling Transformer (UPDeT) 的 transformer-based 模型，可插入任何多智能体强化学习管道并具备强大的泛化能力，证明了相对于现有方法具有优异的迁移能力，在大规模 SMAC 多智能体竞争游戏中取得了显著的表现和训练速度（快 10 倍）。

Abstract

Recent advances in multi-agent reinforcement learning have been largely limited in training one model from scratch for every new task. The limitation is due to the restricted model architecture related to fixed input and output dimensions. This hinders the experience accumulation and t

multi-agent reinforcement learning universal policy decoupling transformer transformer-based model generalization abilities transfer capability

发现论文，激发创造

UniT：统一变形器进行多模态多任务学习

我们提出了一种名为 UniT 的统一 Transformer 模型，该模型可以同时学习不同领域中最重要的任务，从目标检测到自然语言理解和多模态推理，在编码器 - 解码器架构的基础上，通过编码器对每个输入模态进行编码，并使用共享解码器对编码的输入表示进行每个任务的预测，然后是特定于任务的输出头。我们的实验证明，在 8 个数据集上联合学习 7 个任务，使用比以前的工作更少的参数，在每个任务上都获得了强大的性能。

Feb, 2021

通用物理变换器

基于深度神经网络的偏微分方程替代模型近年来越来越受关注。我们引入了通用物理变换器 (UPTs)，这是一种新的学习范式，可以模拟广泛的时空问题，包括拉格朗日离散和欧拉离散方案，而无需网格或基于粒子的潜在结构。UPTs 通过逆编码和解码技术在潜在空间中高效传播动力学，并允许在空间时间的任何点上查询潜在空间表示。我们在基于网格的流体模拟、稳态雷诺平均纳维 - 斯托克斯模拟和拉格朗日动力学中展示了 UPTs 的有效性。

Feb, 2024

分散的变压器与集中的聚合是高效的多智能体世界模型

为了解决多智能体强化学习中的可扩展性和非稳态性问题，我们提出了一种新的多智能体世界模型，通过学习分散的局部动力学来实现可扩展性，并通过中心化表示的聚合来解决非稳态性问题。我们引入了 Perceiver Transformer 作为一种有效的解决方案，通过 Transformer 体系结构对复杂的局部动力学进行建模，从而提供准确而一致的长期想象。在 Starcraft Multi-Agent Challenge（SMAC）上的结果显示，该模型在样本效率和整体性能方面优于强化学习和现有的基于模型的方法。

Jun, 2024

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022

DEFT: 快速转移强化学习的多样化集成

本文提出了基于 Deep Ensembles 的新方法 DEFT 来解决强化学习在高度多模态环境下的转移问题，在训练过程中加入一项鼓励策略之间不同的损失函数，产生多样性，最后将组件策略综合为新的适用于不同环境的策略。实验表明，该方法可以显著提高奖励并更快地收敛。

Sep, 2022

行动前先思考：将语言推理与行动交错的统一策略

提出了一种将 Transformer 模型与强化学习相结合，并在 BabyAI 任务上表现出色的新方法，其中模型输出既包含动作，也包含文本描述。

Apr, 2023

多智能体变压器加速 RL 以满足 STL 规范

我们提出了一种基于时间依赖多智能体变压器的中心化方法，能够有效地解决在多智能体问题中存在的时间依赖性，并且在两个问题上显著优于文献基准算法。

Mar, 2024

通用变压器

Universal Transformer 是一种并行自我关注循环序列模型，它将前馈序列模型（例如 Transformer）的并行性和全局感受野与递归的归纳偏差相结合，解决了在某些简单任务中标准 Transformer 失败的问题，并取得诸多算法和语言理解任务上优越的表现。

Jul, 2018

UP-DETR：基于 Transformer 的无监督预训练物体检测

本研究提出了一种名为随机查询块检测的预训练任务 (UP-DETR)，通过多查询本地化技术和注意力掩码来将其从单一查询块推广到多查询块，提高了检测性能和收敛速度。

Nov, 2020

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021