掩蔽自动编解码器是一种有效的多任务视觉通才

CVPRMar, 2024

掩蔽自动编解码器是一种有效的多任务视觉通才

Masked AutoDecoder is Effective Multi-Task Vision Generalist

Han Qiu, Jiaxing Huang, Peng Gao, Lewei Lu, Xiaoqin Zhang...

TL;DR通过引入双向注意力机制、并行解码框架和掩码序列建模方法，设计了一种名为 MAD 的多任务视觉通用模型，用于统一各种视觉任务，实验证明 MAD 在性能和推理效率方面优于自回归模型，并在与任务专用模型相比获得竞争力的准确性。

Abstract

Inspired by the success of general-purpose models in NLP, recent studies attempt to unify different vision tasks in the same sequence format and employ autoregressive transformers for sequence prediction. They ap

autoregressive transformers vision tasks parallel decoding task-specific models mad

发现论文，激发创造

计算机视觉中自回归解码器的多任务研究

本研究着重探讨了多模式计算机视觉的自回归解码器，包括分类、字幕、视觉问答和光学字符识别等任务，通过广泛的系统性实验，我们研究了多任务和数据混合、训练和正则化超参数、调节类型和特异性、模态组合等因素的影响，并与良好调整的单任务基线进行了比较。重要的是，我们发现锁定图像调整 (LiT-decoder) 的小型解码器表现出色，并通过与预先训练的预训练编码器交互教授解码器自然语言。

Mar, 2023

掩码非自回归图像字幕生成

本文提出了一种基于遮码机制的非自回归解码模型，用于生成图像标题。实验结果表明，该模型可以更有效地保留语义内容并生成更多样化的标题。

Jun, 2019

MADE: 遮蔽自编码器用于分布估计

本研究提出了一种简单的神经网络自编码器模型，可以遵守自回归约束实现强大的生成模型，其输出结果可以被理解为一组条件概率，可以用于多种架构，包括深度架构，并通过实验证明其与现有的可计算分布估算器的表现相当竞争力，并且测试时速度显著更快，规模更大。

Feb, 2015

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022

深度自回归模型的块并行解码

该论文提出了一种新颖的分块并行解码方案，来提高序列生成的速度，并在机器翻译和图像超分辨率任务上通过实验验证了该方法的有效性。

Nov, 2018

Mask-Predict: 条件掩码语言模型的并行解码

本文介绍了一种利用掩码语言建模来训练非自回归机器翻译模型的方法，并通过对多个数据集的实验验证，证明该方法在翻译质量和速度方面都优于现有的非自回归翻译模型，并且接近于左到右的变换器模型。

Apr, 2019

MultiMAE: 多模态多任务掩蔽自编码器

提出了一种称为 MultiMAE 的预训练策略，通过掩蔽解决了网络输入多样性和预测任务多样性的问题，从而实现可靠的跨模态与任务预测编码和转移学习。

Apr, 2022

基于掩码自编码的可扩展通用决策制定

本文提出了一种名为 MaskDP 的简单、可扩展的自监督预训练方法，用于强化学习和行为克隆。这种方法利用了掩码自编码器（MAE）在状态 - 动作轨迹中的作用，可以更好地学习多个下游任务的模型。实验表明，MaskDP 模型的零 - shot 迁移和有前途的规模化行为与模型大小有关。

Nov, 2022

MASS: 面向语言生成的遮掩序列到序列预训练

该论文介绍了 MASS 作为一种在 encoder-decoder 架构下的自然语言生成前预训练方法，通过在随机遮掩的句子中构建代表性提取和语言建模能力，再在文本生成、翻译及会话生成等多个语言生成任务中进行进一步微调，以获得比其他无预训练模型和其他预训练方法更加出色的表现。

May, 2019

OmniMAE：图像和视频单模型遮蔽预训练

使用遮盖自编码器训练简单的 Vision Transformer，能够在多个视觉模态下获得与单一模态相当或更好的视觉表示，而只需使用单一的预训练模型，大大简化架构并加快训练速度。

Jun, 2022