EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练

Aug, 2023

EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

Junyi Chen, Longteng Guo, Jia Sun, Shuai Shao, Zehuan Yuan...

TL;DR本文介绍了一种高效的视觉 - 语言基础模型 EVE，该模型通过一个统一的预训练任务，在共享的 Transformer 网络中编码了视觉和语言，并利用专注于模态性的稀疏的 Mixture-of-Experts 模块来捕捉模态特定信息。通过对图像 - 文本对进行遮蔽信号建模，EVE 实现了图像像素和文本标记的信号重构，从而达到快速训练和更好的下游性能。

Abstract

Building scalable vision-language models to learn from diverse, multimodal data remains an open challenge. In this paper, we introduce an Efficient Vision-languagE foundation model, namely EVE, which is one unified multimodal Transformer pre-trained solely by one unified pre-training t

scalable vision-language models efficient vision-language model multimodal transformer mixture-of-experts modules downstream performance

发现论文，激发创造

VLMo：混合模态专家的统一视觉语言预训练

本研究提出了统一的视觉 - 语言预训练模型 (VLMo)，通过模块化的 Transformer 网络共同学习双编码器和融合编码器。实验结果表明，VLMo 在各种视觉 - 语言任务中取得了最先进的结果。

Nov, 2021

E2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

揭示无编码器的视觉 - 语言模型

在这项研究中，我们提出了一种简单而有效的训练方法，实现了没有视觉编码器的纯视觉语言模型，并通过桥接视觉语言表示和增强视觉识别能力的策略推出了 EVE 模型，它在多个视觉语言基准测试中显著优于采用类似容量的基于编码器的 VLMs。

Jun, 2024

MVP: 多模态引导的视觉预训练

本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法，该方法利用来自其他几个模态的指导信息对图像进行预训练，取代了 Vision Transformer 中的 tokenizer，并在一系列下游视觉识别任务中取得了显著优越的效果。

Mar, 2022

医学视觉与语言预训练的多模态掩码自编码器

提出了一种基于 M$^3$AE 的自监督学习模型，通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型，并在三个任务上实现了最先进水平的结果。

Sep, 2022

EVA: 探索规模下遮蔽式视觉表征学习的极限

我们在这篇论文中提出了 EVA，这是一种基于视觉的基础模型，能够大规模地探索视觉表征的极限，并且只使用公开可用的数据。通过解决预先设定的任务，我们可以有效地将 EVA 扩展到 10 亿个参数，并在诸如图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新的记录，而无需进行大量的监督式训练。

Nov, 2022

图像作为外语：BEiT 预训练模型用于所有视觉和视觉语言任务

本文介绍了通用的多模态基础模型 BEiT-3，通过三个方面的改进：骨干架构、预训练任务和模型扩展，实现了在视觉和视觉语言任务上的最先进转移性能。

Aug, 2022

稀疏专家混合下的视觉语言模型扩展

本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力，通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了宝贵的洞见，并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。

Mar, 2023

OmniMAE：图像和视频单模型遮蔽预训练

使用遮盖自编码器训练简单的 Vision Transformer，能够在多个视觉模态下获得与单一模态相当或更好的视觉表示，而只需使用单一的预训练模型，大大简化架构并加快训练速度。

Jun, 2022

VL-BEiT: 生成式视觉 - 语言预训练

提出了一种称为 VL-BEiT 的视觉语言基础模型，使用生成预训练学习的双向多模态 Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明，VL-BEiT 在各种视觉语言基准测试中能够获得强大的结果，并学习到可转移的视觉特征，实现了在图像分类和语义分割上有着竞争性的表现。

Jun, 2022