MVP: 多模态引导的视觉预训练

Mar, 2022

MVP: Multimodality-guided Visual Pre-training

Longhui Wei, Lingxi Xie, Wengang Zhou, Houqiang Li, Qi Tian

TL;DR本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法，该方法利用来自其他几个模态的指导信息对图像进行预训练，取代了 Vision Transformer 中的 tokenizer，并在一系列下游视觉识别任务中取得了显著优越的效果。

Abstract

Recently, masked image modeling (MIM) has become a promising direction for visual pre-training. In the context of vision transformers, MIM learns effective visual representation by aligning the token-level featur

masked image modeling visual pre-training multimodality guidance vit models visual recognition

发现论文，激发创造

观察、分析与解决：通过带掩码图像建模预训练探索强大轻量化视觉 Transformer

通过对轻量级视觉 Transformer（ViTs）的掩码图像建模（MIM）预训练方法与对比学习（CL）预训练方法在不同数据规模下的行为对比研究，观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现，进而提出了预训练退火策略来解决这一问题，实验证明了该方法在不同视觉任务中的有效性。

Apr, 2024

探究跨模态：自注意力视觉解析用于视觉语言预训练

通过提出的全 Transformer 模型进行视觉 - 语言预训练（VLP），采用 Inter-Modality Flow（IMF）指标和遮盖特征回归（MFR）优化机制来增强视觉关系和视觉 - 语言分析，同时在各种视觉语言任务中取得了明显的最佳性能。

Jun, 2021

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

VL-BEiT: 生成式视觉 - 语言预训练

提出了一种称为 VL-BEiT 的视觉语言基础模型，使用生成预训练学习的双向多模态 Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明，VL-BEiT 在各种视觉语言基准测试中能够获得强大的结果，并学习到可转移的视觉特征，实现了在图像分类和语义分割上有着竞争性的表现。

Jun, 2022

MVPTR: 多阶段学习的视觉语言预训练中的多级语义对齐

本文提出了一种基于多层语义对齐的视觉语言预训练（MVPTR）方法，通过内部多层次表示学习和不同粒度的跨模态语义对齐任务来学习概念表示，强调多模态、多层次的学习能够协同促进表示学习。

Jan, 2022

图像作为外语：BEiT 预训练模型用于所有视觉和视觉语言任务

本文介绍了通用的多模态基础模型 BEiT-3，通过三个方面的改进：骨干架构、预训练任务和模型扩展，实现了在视觉和视觉语言任务上的最先进转移性能。

Aug, 2022

从共享对比语言图像预训练中学习视觉表征

本篇研究探讨使用 transformer 模型进行多模态对比预训练的方法，发现优于原始的 CLIP 方法，并且支持参数量的降低，通过共享参数，实现了不同模态之间的信息交互和相近语义结构的转移。

Jul, 2022

CLIPTrans：基于预训练模型的多模态机器翻译中的视觉知识迁移

本研究提出了 CLIPTrans 框架，通过简单地调整预训练的多模态 M-CLIP 和多语言 mBART 模型，使它们的嵌入空间对齐，并通过轻量级映射网络对 mBART 进行条件化。实验证明该框架的优点，并将标准基准提升了平均 2.67 个 BLEU 值。

Aug, 2023

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

本文介绍了一种新的 VLP 方法：MLIM，它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互，并在 e-commerce 多模态数据集上展示了更好的下游任务表现。

Sep, 2021

增强视觉语言模型的未屏蔽令牌对齐

Contrastive pre-training techniques like CLIP are computationally demanding, while Unmasked Token Alignment (UTA) leverages CLIP models to enhance vision-language representations with a Vision Transformer (ViT) that does not require training on image-text pairs, outperforming existing methods.

May, 2024