从文本角度探究跨模态语义对齐能力

EMNLPOct, 2022

从文本角度探究跨模态语义对齐能力

Probing Cross-modal Semantics Alignment Capability from the Textual Perspective

Zheng Ma, Shi Zong, Mianzhi Pan, Jianbing Zhang, Shujian Huang...

TL;DR本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Abstract

In recent years, vision and language pre-training (VLP) models have advanced the state-of-the-art results in a variety of cross-modal downstream tasks. Aligning cross-modal semantics is claimed to be one of the e

vision and language pre-training cross-modal semantics probing method vlp models alignment weaknesses

发现论文，激发创造

SemVLP: 多层次语义对齐的视觉语言预训练

本文提出 SemVLP 预训练方法，通过单流预训练和双流预训练相结合，使用共享 Transformer 网络和可插入的跨模态注意模块，在不同的语义层次上对图像和文本进行联合对齐，以对齐跨模态表示，实验表明该方法可对齐不同语义粒度。

Mar, 2021

探究跨模态：自注意力视觉解析用于视觉语言预训练

通过提出的全 Transformer 模型进行视觉 - 语言预训练（VLP），采用 Inter-Modality Flow（IMF）指标和遮盖特征回归（MFR）优化机制来增强视觉关系和视觉 - 语言分析，同时在各种视觉语言任务中取得了明显的最佳性能。

Jun, 2021

利用语义完形学习进行视觉语言预训练的漏洞填补

本文提出新的语义完成学习任务，以便于视觉语言预训练（VLP）模型学习多模态数据的全局语义特征，从而实现全局到局部的对其，同时采用一种灵活的视觉编码器使得该模型可以同时执行图像 - 文本与视频 - 文本的多模态任务，实验结果证明该方法在各种视觉语言基准测试中均获得了最新的性能。

Nov, 2022

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

语言知识能够改善视觉 - 语言预训练中的多模态对齐吗？

研究探讨了多模态预训练神经网络模型在视觉语言相关方面的影响，设计并发布了 SNARE 多模态对齐基准，分析了五种先进的视觉语言模型的综合性能。

Aug, 2023

通过跨模态 CutMix 进行非成对视觉 - 语言预训练的 VLMixer

本文提出一种名为跨模态 CutMix（CMC）的数据增强方法，用于隐式的跨模态对齐学习，在没有对齐图像文本对的情况下从纯文本和图像语料库中学习。同时，该论文还提出了一种新的无对齐图像文本预训练方法，名为 VLMixer，通过将 CMC 与对比学习相结合，可以更好地对齐不同视图中的实例。实验结果表明，VLMixer 可以超过以前的无对齐 VLP 方法。

Jun, 2022

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

VLP：视觉语言预训练综述

本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章，并对 VLP 模型做了具体总结，旨在为 VLP 领域的未来研究提供启示。

Feb, 2022

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023