BERT 是否盲目？探索视觉语言预训练对视觉语言理解的影响

CVPRMar, 2023

BERT 是否盲目？探索视觉语言预训练对视觉语言理解的影响

Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining on Visual Language Understanding

Morris Alper, Michael Fiman, Hadar Averbuch-Elor

TL;DR本研究探讨了图像与语言预训练是否可以提高模型在需要隐含视觉推理的文本任务上的性能，提出了一系列用于探测文本编码模型视觉推理能力的任务，并说明了采用多模态预训练方法可以提高文本编码器的性能。

Abstract

Most humans use visual imagination to understand and reason about language, but models such as BERT reason about language using knowledge acquired during text-only pretraining. In this work, we investigate whether vision-and-language →

visual language understanding pretraining implicit visual reasoning multimodal learning text encoder

发现论文，激发创造

视觉语言预训练是否提高了词汇连接能力？

本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示，结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型，因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。

Sep, 2021

多模视觉监督对语言有益吗？

本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣，并根据多个图文模型和视频文本模型的实验结果发现，常规语言表示在多数任务中表现更好，揭示了视觉 - 语言模型当前的缺陷。

Feb, 2023

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020

ViLBERT：预训练无任务束缚的视觉语言表示，用于视觉与语言任务

ViLBERT 是一种用于学习图像内容和自然语言的任务不可知联合表示的模型，并通过在多模态两个流中处理图像和文本输入，通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型，然后通过仅对基础体系结构进行轻微添加，将其转移到多个已建立的视觉语言任务 —— 视觉问答、视觉常识推理、指称表达和基于字幕的图像检索，我们观察到与现有特定任务模型相比，在所有四个任务中都实现了显着的改进，成为学习视觉与语言之间接地只作为任务培训的一部分，而不是对待视觉接地作为可预训练和可转移能力的代表性工作。

Aug, 2019

使用统一条件模型的自训练视觉语言 BERTs

提出了一种自我训练的方法，用于从未标注的图像数据中训练 VL-BERT 模型，模型采用统一的有条件模型，能够执行零样本条件生成，通过该方法使用仅 300k 个未标注的额外数据，可以获得与训练了 300 万个图像数据的相似模型大小的模型相媲美或甚至更好的性能

Jan, 2022

多模态预训练揭示：视觉和语言 BERT 的元分析和统一框架

本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验，分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言 BERT 的差异进行经验研究，揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因，同时将两类网络统一在同一理论框架之下，指出 embedding layer 在这些模型中具有至关重要的作用。

Nov, 2020

超越言语：测试预训练 V&L 模型在计数任务中的跨模态能力

本研究探讨了预训练视觉和语言模型在两个需要多模态集成的任务中的推理能力：（1）区分正确的图像 - 句子对与不正确的对，以及（2）计算图像中的实体。结果显示，预训练的 V＆L 模型非常擅长解决任务（1），但无法充分解决任务（2），即计数探针，并不能推广到不同分布的数量。研究为我们提供了一些对这些发现的解释，并建议理解这些模型的推理和基础能力需要更有目的的调查。

Dec, 2020

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

如何将预训练的视觉语言模型改编为仅文本输入模式？

为了找到最好的方法来将视觉和语言 (VL) 多模态预训练模型适应于仅文本输入，我们研究并比较了适应 VL 模型到文本输入的七种可能的方法。我们的评估结果表明，对于零样本文本 - only 任务，VL 模型需要小心适应，而对于非零样本任务，模型对适应方法不敏感。我们还发现，对于不同的模型，适应方法的表现各不相同，而单模态模型趋同于 VL 模型，提示当前的 VL 模型不一定从其多模态训练中获得更好的语言理解。

Sep, 2022

提高场景文本检测器的视觉语言预训练

本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用，提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能，通过三个 pretext tasks 来进行预训练，在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。

Apr, 2022