多模视觉监督对语言有益吗？

Feb, 2023

Is multi-modal vision supervision beneficial to language?

Avinash Madasu, Vasudev Lal

TL;DR本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣，并根据多个图文模型和视频文本模型的实验结果发现，常规语言表示在多数任务中表现更好，揭示了视觉 - 语言模型当前的缺陷。

Abstract

Vision (image and video) - Language (VL) pre-training is the recent popular paradigm that achieved state-of-the-art results on multi-modal tasks like image-retrieval, video-retrieval, visual question answering etc. These models are trained in an unsupervised way and greatly benefit from the complementary modality supervision. In this paper, we explore if the

vision-language pre-training multimodal tasks language representations natural language understanding commonsense reasoning

发现论文，激发创造

用更少的双模态监督训练视觉 - 语言模型

本次研究旨在探究如何在预训练视觉 - 语言模型中减少对平行数据的依赖，通过对高性能视觉 - 语言模型的实验，发现在一些简单任务中完全可以消除双模态监督，但在更复杂的任务中，没有双模态监督将导致随机的性能。然而，利用 5％的双模态数据或弱监督产生的标签仅会引起中等程度的性能下降。

Nov, 2022

定位与语义：语言如何促进视觉表征学习？

我们通过探测的方式比较了视觉 - 语言模型和仅视觉模型的视觉表征，在广泛的任务范畴内评估学习表征的质量，发现视觉 - 语言模型更适合标签预测任务，而仅视觉模型更适合需要更多局部信息的密集预测任务，同时指出语言有利于视觉模型更好地学习语义，但不利于定位。

Dec, 2022

视觉语言预训练是否提高了词汇连接能力？

本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示，结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型，因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。

Sep, 2021

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

多模视觉 - 语言整合的多模视频变压器与大脑 (部分) 对齐

我们通过利用脑科学证据来探索预训练的多模态视频变换器模型，发现视觉增强了与语言处理中的遮蔽预测性能，支持模型中交叉模态表示可以受益于个体模态，但未发现与大脑相关的信息，我们展示使用一个需要视觉 - 语言推理的任务，可以改善预训练联合表示的脑对齐效果，这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力，但也表明改善这些模型的脑对齐可能需要新的方法。

Nov, 2023

视觉 - 语言预训练模型综述

本文综述了视觉 - 语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

VLP：视觉语言预训练综述

本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章，并对 VLP 模型做了具体总结，旨在为 VLP 领域的未来研究提供启示。

Feb, 2022

对比交叉模态模型的语言编码器

对比交叉模态模型如 CLIP 和 CLAP 对视觉 - 语言（VL）和音频 - 语言（AL）任务有所帮助，本篇研究评估了无监督和监督的句子嵌入训练对语言编码器质量和交叉模态任务性能的影响，发现句子嵌入训练有助于提高对比 VL 模型的性能，但在 AL 预训练中效果较少，可能是由于预训练数据量有限所致。通过对表示空间的分析，句子嵌入训练改善了文本空间的均匀性，但降低了交叉模态对齐性。

Oct, 2023

Bi-VLDoc: 面向视觉丰富的文档理解的双向视觉 - 语言建模

本文提出了一种名为 Bi-VLDoc 的预训练模型，该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用，以学习具有更丰富语义的更强的跨模态文档表示，并在模型效果上显著优于现有模型，包括文档理解、文档分类和文档视觉问答等领域。

Jun, 2022