利用语义完形学习进行视觉语言预训练的漏洞填补

Nov, 2022

利用语义完形学习进行视觉语言预训练的漏洞填补

Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning

Yatai Ji, Rongcheng Tu, Jie Jiang, Weijie Kong, Chengfei Cai...

TL;DR本文提出新的语义完成学习任务，以便于视觉语言预训练（VLP）模型学习多模态数据的全局语义特征，从而实现全局到局部的对其，同时采用一种灵活的视觉编码器使得该模型可以同时执行图像-文本与视频-文本的多模态任务，实验结果证明该方法在各种视觉语言基准测试中均获得了最新的性能。

Abstract

cross-modal alignment is essential for vision-language pre-training (VLP) models to learn the correct corresponding information across different modalities. For this purpose, inspired by the success of

发现论文，激发创造

SemVLP: 多层次语义对齐的视觉语言预训练

本文提出SemVLP预训练方法，通过单流预训练和双流预训练相结合，使用共享Transformer网络和可插入的跨模态注意模块，在不同的语义层次上对图像和文本进行联合对齐，以对齐跨模态表示，实验表明该方法可对齐不同语义粒度。

Mar, 2021

探究跨模态：自注意力视觉解析用于视觉语言预训练

通过提出的全Transformer模型进行视觉-语言预训练（VLP），采用Inter-Modality Flow（IMF）指标和遮盖特征回归（MFR）优化机制来增强视觉关系和视觉-语言分析，同时在各种视觉语言任务中取得了明显的最佳性能。

Jun, 2021

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Sep, 2021

MVPTR: 多阶段学习的视觉语言预训练中的多级语义对齐

本文提出了一种基于多层语义对齐的视觉语言预训练（MVPTR）方法，通过内部多层次表示学习和不同粒度的跨模态语义对齐任务来学习概念表示，强调多模态、多层次的学习能够协同促进表示学习。

Jan, 2022

视觉语言预训练的单流多级对齐

利用对比损失进行的自监督视觉-语言预训练虽然有效，但由于双流体系结构仅在全局层面上对齐图像和文本表示法，因此忽略了细粒度对齐。本文提出了一种单通道体系结构，使用两个新任务在多个层次（即全局、细粒度图块-令牌和概念/语义层次）上对齐图像和语言，实现了更细粒度的对齐和更强大的数据效率，这两个新任务是对称跨模态重建和伪标签关键字预测。

Mar, 2022

通过跨模态CutMix进行非成对视觉-语言预训练的VLMixer

本文提出一种名为跨模态CutMix（CMC）的数据增强方法，用于隐式的跨模态对齐学习，在没有对齐图像文本对的情况下从纯文本和图像语料库中学习。同时，该论文还提出了一种新的无对齐图像文本预训练方法，名为VLMixer，通过将CMC与对比学习相结合，可以更好地对齐不同视图中的实例。实验结果表明，VLMixer可以超过以前的无对齐VLP方法。

Jun, 2022

多模态表示学习的遮蔽视觉和语言建模

本文研究如何使用掩码信号建模来实现视觉和语言（V + L）表示学习，提出了联合掩码视觉和语言建模的方法，通过不同的模态互相重构，隐式地学习语言标记和图像补丁的交叉模态对齐，并在各种V + L任务中实现了最先进的性能。

Aug, 2022

视觉语言预训练的全局和局部语义补全学习

本文提出了一种GLSCL任务，旨在促进全局-局部对齐和局部-局部对齐，该任务包括MGSC和MLTC，可通过跨模式交互补充掩码数据的缺失语义并恢复全局和局部特征，实验结果显示，该方法在多种视觉语言基准测试中获得了最先进的性能。

Jun, 2023

弃用预训练：将视觉-语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

语义增强的跨模态遮蔽图像建模及视觉-语言预训练

我们提出了一个语义增强的视觉-语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉-语言任务中取得了最先进或有竞争力的性能。

Mar, 2024