VL-BERT: 通用视觉语言表示的预训练

Aug, 2019

VL-BERT: 通用视觉语言表示的预训练

VL-BERT: Pre-training of Generic Visual-Linguistic Representations

Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu...

TL;DR本研究引入一个新的预可训练的通用视觉语言表示方法——Visual-Linguistic BERT，它采用了简单而强大的Transformer模型作为骨干网络，并将视觉和语言嵌入特征扩展为输入。通过在大规模的Conceptual Captions数据集上进行文本预训练，VL-BERT可以适配大多数视觉语言下游任务，并在可视化常识推理、视觉问答、指称理解等下游任务中取得了不错的效果。

Abstract

We introduce a new pre-trainable generic representation for visual-linguistic tasks, called visual-linguistic bert (VL-BERT for short). VL-BERT adopts the simple yet powerful transformer model as the backbone, an

发现论文，激发创造

ViLBERT：预训练无任务束缚的视觉语言表示，用于视觉与语言任务

ViLBERT是一种用于学习图像内容和自然语言的任务不可知联合表示的模型，并通过在多模态两个流中处理图像和文本输入，通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型，然后通过仅对基础体系结构进行轻微添加，将其转移到多个已建立的视觉语言任务——视觉问答、视觉常识推理、指称表达和基于字幕的图像检索，我们观察到与现有特定任务模型相比，在所有四个任务中都实现了显着的改进，成为学习视觉与语言之间接地只作为任务培训的一部分，而不是对待视觉接地作为可预训练和可转移能力的代表性工作。

Aug, 2019

VD-BERT: 一个与BERT结合的统一视觉和对话Transformer

该研究提出的VD-BERT框架，是一种简单且有效的视觉-对话Transformer编码器，可以通过统一的编码器捕获图像和多回合对话之间的交互，并通过与BERT语言模型的整合实现回答的排名和生成，同时无需预训练外部视觉-语言数据即可获得最新的最高水平。

Apr, 2020

多模态预训练揭示：视觉和语言 BERT 的元分析和统一框架

本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验，分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言BERT的差异进行经验研究，揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因，同时将两类网络统一在同一理论框架之下，指出embedding layer在这些模型中具有至关重要的作用。

Nov, 2020

MiniVLM: 一个更小更快的视觉语言模型

本文提出MiniVLM，一个轻量、快速的视觉-语言模型，采用two-stage efficient feature extractor和MiniLM结构。MiniVLM与大型模型相比，模型大小减少73％，推理时间成本降低94％，在多个视觉-语言任务上准确率保持94-97％。希望MiniVLM可以用于边缘应用。

Dec, 2020

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了SimVLM获得了强大的泛化和转移能力，实现了零-shot行为。

Aug, 2021

使用统一条件模型的自训练视觉语言BERTs

提出了一种自我训练的方法，用于从未标注的图像数据中训练VL-BERT模型，模型采用统一的有条件模型，能够执行零样本条件生成，通过该方法使用仅300k个未标注的额外数据，可以获得与训练了300万个图像数据的相似模型大小的模型相媲美或甚至更好的性能

Jan, 2022

VU-BERT：一个视觉对话的统一框架

本文提出了一种名为VU-BERT图文联合嵌入的框架，通过用patch projection获取视觉嵌入来简化模型，从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题，并在可视对话任务上取得了较高的竞争性表现。

Feb, 2022

视觉语言预训练模型：一项调查

本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功，着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略，并提出了未来三个方向的研究建议。

Apr, 2022

无图像的自然语言处理任务的视觉增强预训练语言模型

本文提出了一种新的视觉增强微调方法，名为VAWI,该方法能够将视觉语义注入到不同PLMs或自然语言处理任务中，通过使用视觉饥饿字词的固定CLIP文本编码器来产生视觉增强表示，引入了视觉语义，实验结果表明该方法能够改善BERT、RoBERTa、BART和T5的性能，并显著优于其他竞争基线。

Dec, 2022

MLLMs增强的视觉-语言表示学习

我们展示了多模态大型语言模型（MLLMs）通过提高数据质量来增强视觉语言表示学习，使用MLLMs扩展每个图像的多个标题，通过“文本切割”方法来防止MLLMs引入的偏见和内在标题风格，并在图像文本检索中，在微调和零样本设置下分别获得5.6〜35.0％和16.8〜46.1％的R@1提升，并且我们的零样本结果可与目标数据集上的微调相媲美，鼓励更多对MLLMs的多方面使用的探索。

Nov, 2023