语言知识能够改善视觉 - 语言预训练中的多模态对齐吗？

Aug, 2023

语言知识能够改善视觉 - 语言预训练中的多模态对齐吗？

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

Fei Wang, Liang Ding, Jun Rao, Ye Liu, Li Shen...

TL;DR研究探讨了多模态预训练神经网络模型在视觉语言相关方面的影响，设计并发布了 SNARE 多模态对齐基准，分析了五种先进的视觉语言模型的综合性能。

Abstract

The multimedia community has shown a significant interest in perceiving and representing the physical world with multimodal pretrained neural network models, and among them, the visual-language pertaining (VLP) is, currently, the most captivating topic. However, there have been few endeavors dedicated to the exploration of 1) whether essential →

multimodal pretrained neural network models visual-language pertaining (vlp)linguistic knowledge multimodal alignment snare

发现论文，激发创造

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

视觉语言预训练是否提高了词汇连接能力？

本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示，结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型，因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。

Sep, 2021

对齐、推理和学习：利用知识增强医疗视觉语言预训练

本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP)，通过结构化医学领域专家知识从三个方面做到了这一点，并构建了一个医学视觉和语言基准来评估此方法的有效性。

Sep, 2022

SemVLP: 多层次语义对齐的视觉语言预训练

本文提出 SemVLP 预训练方法，通过单流预训练和双流预训练相结合，使用共享 Transformer 网络和可插入的跨模态注意模块，在不同的语义层次上对图像和文本进行联合对齐，以对齐跨模态表示，实验表明该方法可对齐不同语义粒度。

Mar, 2021

语言绑定：通过基于语言的语义对齐将视频 - 语言预训练扩展到 N - 模态

我们提出了一种称为 LanguageBind 的方法，通过冻结 VL 预训练得到的语言编码器，然后使用对比学习训练其他多模态编码器，实现多模态语义对齐，同时我们还提出了 VIDAL-10M 数据集用于此目的，经过在该数据集上的预训练，我们在零样本视频文本检索方面优于 ImageBind 1.2％ R@1，并且在零样本视频，音频，深度和红外理解任务方面也取得了显著改进。

Oct, 2023

VLP：视觉语言预训练综述

本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章，并对 VLP 模型做了具体总结，旨在为 VLP 领域的未来研究提供启示。

Feb, 2022

利用语义完形学习进行视觉语言预训练的漏洞填补

本文提出新的语义完成学习任务，以便于视觉语言预训练（VLP）模型学习多模态数据的全局语义特征，从而实现全局到局部的对其，同时采用一种灵活的视觉编码器使得该模型可以同时执行图像 - 文本与视频 - 文本的多模态任务，实验结果证明该方法在各种视觉语言基准测试中均获得了最新的性能。

Nov, 2022

探究跨模态：自注意力视觉解析用于视觉语言预训练

通过提出的全 Transformer 模型进行视觉 - 语言预训练（VLP），采用 Inter-Modality Flow（IMF）指标和遮盖特征回归（MFR）优化机制来增强视觉关系和视觉 - 语言分析，同时在各种视觉语言任务中取得了明显的最佳性能。

Jun, 2021

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023