KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

Sep, 2021

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation

Yongfei Liu, Chenfei Wu, Shao-yen Tseng, Vasudev Lal, Xuming He...

TL;DR本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Abstract

Self-supervised vision-and-language pretraining (VLP) aims to learn transferable multi-modal representations from large-scale image-text data and to achieve strong performances on a broad scope of vision-language

发现论文，激发创造

Oscar: 面向视觉语言任务的对象-语义对齐预训练模型

本文介绍了一种基于目标检测的图像-文本预训练学习方法Oscar，通过使用在图像中检测到的目标标签作为锚点，显著简化模型中的图像与文本的语义对齐，使其在六个视觉-语言理解和生成任务中创造了新的最好成果。

Apr, 2020

SemVLP: 多层次语义对齐的视觉语言预训练

本文提出SemVLP预训练方法，通过单流预训练和双流预训练相结合，使用共享Transformer网络和可插入的跨模态注意模块，在不同的语义层次上对图像和文本进行联合对齐，以对齐跨模态表示，实验表明该方法可对齐不同语义粒度。

Mar, 2021

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

突破常规：端到端预训练用于视觉-语言表示学习

该研究提出一种名为SOHO的视觉-语言预训练模型，采用卷积神经网络和Transformer联合训练的方法，基于整个图像进行学习，并使用视觉字典的方法提取综合而紧凑的图像特征，来实现跨模态的对齐和理解。在四个视觉-语言任务上进行了实验，相对于目前最先进的方法具有更好的性能。

Apr, 2021

E2E-VLP: 结合视觉学习的端到端视觉-语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉-语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码-解码结构增强了视觉学习。在广泛的视觉-语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

探究跨模态：自注意力视觉解析用于视觉语言预训练

通过提出的全Transformer模型进行视觉-语言预训练（VLP），采用Inter-Modality Flow（IMF）指标和遮盖特征回归（MFR）优化机制来增强视觉关系和视觉-语言分析，同时在各种视觉语言任务中取得了明显的最佳性能。

Jun, 2021

ROSITA: 通过跨模态和内部模态知识整合提升视觉语言语义对齐

ROSITA是一种新的VLP方法，其通过将跨模态和内在知识整合到一个统一的场景图中来增强语义对齐，具体地，它引入了一种结构知识掩蔽策略来使用场景图结构作为支持性先验知识来执行掩蔽语言（区域）建模，从而通过消除在跨模态和内部信息中的干扰信息增强语义对齐。经过了广泛的消融研究和综合分析，ROSITA在语义对齐方面表现优秀，在三个典型的视觉与语言任务上，在六个基准数据集上优于现有的最先进的VLP方法。

Aug, 2021

视觉-语言智能：任务、表示学习与大模型

这篇论文从时间的角度对视觉语言智能进行了全面的调研, 总结了三个时期的发展, 包括特定任务方法, 视觉-语言预训练方法和通过大规模弱标签数据增强的更大模型, 并讨论了未来的发展趋势.

Mar, 2022

视觉语言预训练模型：一项调查

本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功，着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略，并提出了未来三个方向的研究建议。

Apr, 2022

利用语义完形学习进行视觉语言预训练的漏洞填补

本文提出新的语义完成学习任务，以便于视觉语言预训练（VLP）模型学习多模态数据的全局语义特征，从而实现全局到局部的对其，同时采用一种灵活的视觉编码器使得该模型可以同时执行图像-文本与视频-文本的多模态任务，实验结果证明该方法在各种视觉语言基准测试中均获得了最新的性能。

Nov, 2022