多智能体决策的屏蔽预训练

Oct, 2023

Masked Pretraining for Multi-Agent Decision Making

Jie Liu, Yinmin Zhang, Chuming Li, Chao Yang, Yaodong Yang...

TL;DR提出了一种基于 Transformer 架构的 MaskMA 预训练框架，通过分布式执行和部分观察的方式，同时解决了多智能体决策中分布式预训练和执行不匹配以及智能体数量和行动空间多样性的问题，实验结果显示 MaskMA 在多个任务上都表现出色，包括 77.8％的零 - shot 胜率和有效的策略协作和临时团队游戏能力。

Abstract

Building a single generalist agent with zero-shot capability has recently sparked significant advancements in decision-making. However, extending this capability to multi-agent scenarios presents challenges. Most

zero-shot capability multi-agent scenarios maskma decentralized execution generalizable action representation

发现论文，激发创造

基于掩码自编码的可扩展通用决策制定

本文提出了一种名为 MaskDP 的简单、可扩展的自监督预训练方法，用于强化学习和行为克隆。这种方法利用了掩码自编码器（MAE）在状态 - 动作轨迹中的作用，可以更好地学习多个下游任务的模型。实验表明，MaskDP 模型的零 - shot 迁移和有前途的规模化行为与模型大小有关。

Nov, 2022

MASS: 面向语言生成的遮掩序列到序列预训练

该论文介绍了 MASS 作为一种在 encoder-decoder 架构下的自然语言生成前预训练方法，通过在随机遮掩的句子中构建代表性提取和语言建模能力，再在文本生成、翻译及会话生成等多个语言生成任务中进行进一步微调，以获得比其他无预训练模型和其他预训练方法更加出色的表现。

May, 2019

RePreM: 用带掩码模型的表示预训练进行强化学习

通过使用遮蔽模型进行预训练，提出了适用于 RL 的遮蔽模型预训练方法 RePreM，避免了算法复杂性和数据增强的问题，并通过各种任务的实验证明了其有效性。

Mar, 2023

UniMASK: 顺序决策问题中的统一推理

本研究介绍了一种名为 UniMASK 的框架，利用序列掩蔽的方式，提供了一种统一的方式来指定可以用于多种不同序列决策任务的模型。经过微调后，我们的 UniMASK 模型能够在许多任务上表现非常好，甚至比单任务模型表现更好。

Nov, 2022

使用遮蔽视觉预训练的真实世界机器人学习

本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练，在多种机器人任务和实体上表现出了较高效果，并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练，展示了对于机器人学习的视觉预培训的规模化提升的好处。

Oct, 2022

预训练掩码模型实现全能零样本降噪器

基于其中提出的 Masked Pre-train then Iterative fill (MPI) 方法，该研究在图像去噪方面取得了显著的进展，能够在有限迭代次数内高质量地去噪，同时大幅减少推理时间。

Jan, 2024

OmniMAE：图像和视频单模型遮蔽预训练

使用遮盖自编码器训练简单的 Vision Transformer，能够在多个视觉模态下获得与单一模态相当或更好的视觉表示，而只需使用单一的预训练模型，大大简化架构并加快训练速度。

Jun, 2022

视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

本研究提出了一种名为 MaPeT 的新型自监督预训练方法，旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题，实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。

Jun, 2023

论掩码预训练和边缘似然

本文研究了带有累积评分函数的遮蔽预训练模型，证明该方法优化模型边际似然，从而取得了预训练的成功效果，并且推荐用类似方法来训练贝叶斯模型，同时还探讨了在大型语言模型中使用遮蔽预训练的主要学习原则。

Jun, 2023

自监督多任务预训练：控制变压器

本文提出一种通用的预训练 - 微调流水线 ——Self-supervised Multi-task pretrAining with contRol Transformer（SMART），通过设计一种控制中心的自监督微调目标，结合控制变压器（CT）实现了对短期控制和长期控制相关的信息的捕捉，在 DeepMind 控制套件上的广泛实验表明 SMART 极大地提高了在不同的学习场景下（包括模仿学习和强化学习）的学习效率和泛化能力。

Jan, 2023