细粒度语义对齐视觉 - 语言预训练

Aug, 2022

细粒度语义对齐视觉 - 语言预训练

Fine-Grained Semantically Aligned Vision-Language Pre-Training

Juncheng Li, Xin He, Longhui Wei, Long Qian, Linchao Zhu...

TL;DRLOUPE 是一个 fine-grained semantically aligned vision-language pre-training framework，通过博弈论交互的新视角学习到精细的语义对齐，并进一步提出了一个基于 Uncertainty-Aware Shapley interaction 的神经网络模块来高效地计算博弈论交互。实验表明， LOUPE 在各种视觉 - 语言任务上均达到了最先进的性能。此外， LOUPE 实现了无需任何对象级人员注释和微调的目标检测和视觉定位的竞争性能，同时也开启了一个新的方向，即从大规模原始图像文本数据中学习精细语义。

Abstract

Large-scale vision-language pre-training has shown impressive advances in a wide range of downstream tasks. Existing methods mainly model the cross-modal alignment by the similarity of the global representations of images and texts, or advanced cross-modal attention upon image and text

large-scale pre-training vision-language fine-grained semantic alignment game-theoretic interactions loupe

发现论文，激发创造

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

FILIP：细粒度的交互式语言图像预训练

本文介绍一种利用跨模态后期交互机制实现精细级别对齐的大规模 Fine-grained 互动语言 - 图像预训练（FILIP）方法，并构建了一个用于预训练的新的大规模图像 - 文本对数据集。实验结果显示，FILIP 在多个视觉 - 语言任务中实现了最先进的性能，包括零 - shot 图像分类和图像 - 文本检索。

Nov, 2021

SemVLP: 多层次语义对齐的视觉语言预训练

本文提出 SemVLP 预训练方法，通过单流预训练和双流预训练相结合，使用共享 Transformer 网络和可插入的跨模态注意模块，在不同的语义层次上对图像和文本进行联合对齐，以对齐跨模态表示，实验表明该方法可对齐不同语义粒度。

Mar, 2021

多层次视觉语言预训练：将文本与视觉概念对齐

提出了一种名为 X-VLM 的多粒度视觉语言预训练方法，通过定位图像中的视觉概念并将其与文本进行对齐，实现了多粒度对齐，并将其应用于下游视觉语言任务中取得了优秀的效果，并超越了现有的最先进方法。

Nov, 2021

歌词：通过语义感知视觉对象增强细粒度语言视觉对齐和理解

一种新的多模式预训练和指令微调范式 Lyrics，通过细粒度的跨模态协作，将从细粒度视觉精炼器中提取的局部视觉特征注入到查询转换器中，同时，在语言输入的边界框和标签方面使用从视觉精炼器中推导出的信息，通过两阶段训练方案实现模态融合，从而在各种视觉语言任务中取得了强大的性能和有希望的多模态理解和详细描绘能力。

Dec, 2023

E2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

精细视觉语言理解进展的衡量

本文通过对四个具有挑战性的细粒度基准进行实验研究，发现 X-VLM 是最好的模型，同时强调新的损失函数和丰富的数据源对于学习细粒度技能非常重要。

May, 2023

自监督替换用于细粒度视觉语言预训练

本文提出了一种无需对象注释的细粒度自我监督信号，其基于同义词句子改写（HSR）算法提供令牌级别的监督，并使用置换视觉语言建模（RVLM）框架，分别提供被替换语言对比（RLC）和被替换语言模型（RLM）两种方法来学习细粒度对齐，通过多项下游任务的广泛实验，证明了所提出方法的卓越性能。

Mar, 2023

ViLLA: 从真实世界数据中细粒度的视觉 - 语言表示学习

通过系统评估，本研究首次证明了在训练数据的两两复杂性增加时，标准视觉语言模型在学习图像区域与文本属性之间的细粒度关系方面存在性能下降问题，为了解决这个问题，研究引入了 ViLLA，通过两个组件（自监督映射模型和对比视觉语言模型）来训练捕捉复杂数据集中图像区域与文本属性的细粒度关系，实验证明 ViLLA 在细粒度推理任务（如零样本目标检测和检索）上表现优于其他视觉语言模型。

Aug, 2023