训练端到端的视觉语言变换器的实证研究

CVPRNov, 2021

训练端到端的视觉语言变换器的实证研究

An Empirical Study of Training End-to-End Vision-and-Language Transformers

Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang...

TL;DR该研究展示了一个名为 METER 的多模态端到端 Transformer 框架，研究了如何设计和预训练一个完全基于 Transformer 的视听模型以及它们的性能，通过在多个维度上对模型设计进行分解，并使用预训练的增强模型，达到了相对于基于区域特征的模型更好的性能，即在 VQAv2 测试数据集上取得了 77.64% 的准确率，超过了以前的最优模型，并且在最佳情况下可以达到 80.54％的准确率。

Abstract

Vision-and-language (VL) pre-training has proven to be highly effective on various VL downstream tasks. While recent work has shown that fully transformer-based vl models can be more efficient than previous region-feature-based methods, their performance on downstream tasks often degra

vision-and-language pre-training transformer-based vl models multimodal end-to-end transformer framework pre-training objectives vqav2

发现论文，激发创造

视觉 - 语言预训练模型综述

本文综述了视觉 - 语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022

E2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020

MiniVLM: 一个更小更快的视觉语言模型

本文提出 MiniVLM，一个轻量、快速的视觉 - 语言模型，采用 two-stage efficient feature extractor 和 MiniLM 结构。MiniVLM 与大型模型相比，模型大小减少 73％，推理时间成本降低 94％，在多个视觉 - 语言任务上准确率保持 94-97％。希望 MiniVLM 可以用于边缘应用。

Dec, 2020

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

多模态预训练揭示：视觉和语言 BERT 的元分析和统一框架

本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验，分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言 BERT 的差异进行经验研究，揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因，同时将两类网络统一在同一理论框架之下，指出 embedding layer 在这些模型中具有至关重要的作用。

Nov, 2020

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

VL-BEiT: 生成式视觉 - 语言预训练

提出了一种称为 VL-BEiT 的视觉语言基础模型，使用生成预训练学习的双向多模态 Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明，VL-BEiT 在各种视觉语言基准测试中能够获得强大的结果，并学习到可转移的视觉特征，实现了在图像分类和语义分割上有着竞争性的表现。

Jun, 2022

使用遮蔽视觉建模的端到端视频 - 语言变压器的实证研究

本文系统研究了遮蔽视觉建模（MVM）在视频 - 语言（VidL）预训练中的应用，基于全面的端到端 VIdeO-LanguagE 变换器（VIOLET），提出了 8 种不同的 MVM 重构目标，从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明，使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。

Sep, 2022

Unicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现

通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，取得了领先或可比的结果，展示了交叉模态预训练的强大能力。

Aug, 2019