用更少的双模态监督训练视觉 - 语言模型

Nov, 2022

用更少的双模态监督训练视觉 - 语言模型

Training Vision-Language Models with Less Bimodal Supervision

Elad Segal, Ben Bogin, Jonathan Berant

TL;DR本次研究旨在探究如何在预训练视觉 - 语言模型中减少对平行数据的依赖，通过对高性能视觉 - 语言模型的实验，发现在一些简单任务中完全可以消除双模态监督，但在更复杂的任务中，没有双模态监督将导致随机的性能。然而，利用 5％的双模态数据或弱监督产生的标签仅会引起中等程度的性能下降。

Abstract

Standard practice in pretraining multimodal models, such as vision-language models, is to rely on pairs of aligned inputs from both modali

pretraining multimodal models bimodal supervision vision-language low-resource settings

发现论文，激发创造

多模视觉监督对语言有益吗？

本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣，并根据多个图文模型和视频文本模型的实验结果发现，常规语言表示在多数任务中表现更好，揭示了视觉 - 语言模型当前的缺陷。

Feb, 2023

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

Bi-VLDoc: 面向视觉丰富的文档理解的双向视觉 - 语言建模

本文提出了一种名为 Bi-VLDoc 的预训练模型，该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用，以学习具有更丰富语义的更强的跨模态文档表示，并在模型效果上显著优于现有模型，包括文档理解、文档分类和文档视觉问答等领域。

Jun, 2022

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

UniBoost: 无监督单模态预训练来提升零样本视觉语言任务能力

使用大规模非监督单模型预训练可以提高图像 - 文本匹配的零样本性能和模型理解图像和文本关系的能力

Jun, 2023

视觉语言预训练是否提高了词汇连接能力？

本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示，结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型，因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。

Sep, 2021

视觉与语言还是视觉为语言？多模态 Transformer 中的跨模态影响

研究了预训练的视觉和语言 BERT 学习跨模态信息组合表示的方法，通过交叉模态输入消融来评估这些模型集成跨模态信息的程度，并发现最近提出的模型在处理缺失视觉信息的情况下比处理缺失文本信息的情况更难，表明这些模型不是对称的跨模态。

Sep, 2021

如何将预训练的视觉语言模型改编为仅文本输入模式？

为了找到最好的方法来将视觉和语言 (VL) 多模态预训练模型适应于仅文本输入，我们研究并比较了适应 VL 模型到文本输入的七种可能的方法。我们的评估结果表明，对于零样本文本 - only 任务，VL 模型需要小心适应，而对于非零样本任务，模型对适应方法不敏感。我们还发现，对于不同的模型，适应方法的表现各不相同，而单模态模型趋同于 VL 模型，提示当前的 VL 模型不一定从其多模态训练中获得更好的语言理解。

Sep, 2022

视觉 - 语言预训练模型综述

本文综述了视觉 - 语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024