探究跨模态：自注意力视觉解析用于视觉语言预训练

Jun, 2021

探究跨模态：自注意力视觉解析用于视觉语言预训练

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training

Hongwei Xue, Yupan Huang, Bei Liu, Houwen Peng, Jianlong Fu...

TL;DR通过提出的全Transformer模型进行视觉-语言预训练（VLP），采用Inter-Modality Flow（IMF）指标和遮盖特征回归（MFR）优化机制来增强视觉关系和视觉-语言分析，同时在各种视觉语言任务中取得了明显的最佳性能。

Abstract

vision-language pre-training (vlp) aims to learn multi-modal representations from image-text pairs and serves for downstream vision-langua

发现论文，激发创造

LXMERT：使用Transformers学习跨模态编码器表示

本文介绍了使用LXMERT框架进行视觉-语言推理的方法。该框架包括一个基于Transformer模型的对象关系编码器、语言编码器和跨模态编码器，并通过大量图像-句子对进行预训练，以学习在这两个模态之间的关系。通过微调这个预训练模型，在两个视觉问答数据集上取得了最先进的结果，并在NLVR2数据集上将之前最好的结果提高了22%。

Aug, 2019

SemVLP: 多层次语义对齐的视觉语言预训练

本文提出SemVLP预训练方法，通过单流预训练和双流预训练相结合，使用共享Transformer网络和可插入的跨模态注意模块，在不同的语义层次上对图像和文本进行联合对齐，以对齐跨模态表示，实验表明该方法可对齐不同语义粒度。

Mar, 2021

突破常规：端到端预训练用于视觉-语言表示学习

该研究提出一种名为SOHO的视觉-语言预训练模型，采用卷积神经网络和Transformer联合训练的方法，基于整个图像进行学习，并使用视觉字典的方法提取综合而紧凑的图像特征，来实现跨模态的对齐和理解。在四个视觉-语言任务上进行了实验，相对于目前最先进的方法具有更好的性能。

Apr, 2021

E2E-VLP: 结合视觉学习的端到端视觉-语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉-语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码-解码结构增强了视觉学习。在广泛的视觉-语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Sep, 2021

视觉-语言智能：任务、表示学习与大模型

这篇论文从时间的角度对视觉语言智能进行了全面的调研, 总结了三个时期的发展, 包括特定任务方法, 视觉-语言预训练方法和通过大规模弱标签数据增强的更大模型, 并讨论了未来的发展趋势.

Mar, 2022

通过跨模态CutMix进行非成对视觉-语言预训练的VLMixer

本文提出一种名为跨模态CutMix（CMC）的数据增强方法，用于隐式的跨模态对齐学习，在没有对齐图像文本对的情况下从纯文本和图像语料库中学习。同时，该论文还提出了一种新的无对齐图像文本预训练方法，名为VLMixer，通过将CMC与对比学习相结合，可以更好地对齐不同视图中的实例。实验结果表明，VLMixer可以超过以前的无对齐VLP方法。

Jun, 2022

从共享对比语言图像预训练中学习视觉表征

本篇研究探讨使用transformer模型进行多模态对比预训练的方法，发现优于原始的CLIP方法，并且支持参数量的降低，通过共享参数，实现了不同模态之间的信息交互和相近语义结构的转移。

Jul, 2022

使用单塔Transformer统一视觉与语言表示空间

本文提出了一种新的多模态表示学习框架OneR，该框架可以将图像和标题简单地视为底层相互信息的两种不同视角，并统一地编码两种模态。通过对其进行全面评估，结果表明该框架具有潜在的高效性。

Nov, 2022

利用语义完形学习进行视觉语言预训练的漏洞填补

本文提出新的语义完成学习任务，以便于视觉语言预训练（VLP）模型学习多模态数据的全局语义特征，从而实现全局到局部的对其，同时采用一种灵活的视觉编码器使得该模型可以同时执行图像-文本与视频-文本的多模态任务，实验结果证明该方法在各种视觉语言基准测试中均获得了最新的性能。

Nov, 2022