无监督的视觉与语言预训练：无需平行图像和文本

ACLOct, 2020

无监督的视觉与语言预训练：无需平行图像和文本

Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions

Liunian Harold Li, Haoxuan You, Zhecan Wang, Alireza Zareian, Shih-Fu Chang...

TL;DR通过无监督预训练实现视觉和语言模型的学习，使用 “mask-and-predict” 方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁，在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于 V&L 预训练来说，对齐数据是必要的广泛看法，并显著减少了 V&L 模型的监督所需量。

Abstract

Pre-trained contextual vision-and-language (V&L) models have achieved impressive performance on various benchmarks. However, existing models require a large amount of parallel image-caption data for pre-training. Such data are costly to collect and require cumbersome curation. Inspired

vision-and-language models pre-training unsupervised learning object recognition v&l benchmarks

发现论文，激发创造

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

使用带噪文本监督扩展视觉和视觉语言表示学习

本文利用包含超过 10 亿个图像备选文本对的嘈杂数据集，采用简单的双编码器体系结构通过对比损失，学习了图像和文本对的视觉和语言表示，显示出我们语料库的规模可以弥补其噪音，即使使用这样的简单学习方案也能实现最先进的表现，使跨模式搜索变得更加容易。

Feb, 2021

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021

VIVO：用于新颖物体字幕生成的视觉词汇预训练

通过 VIVO 预训练模型，该论文提出了一种使用无注释图像和标签数据进行预训练的方法，通过预训练一个多层转换器模型来学习视觉词汇，并验证了其在图像字幕生成中的有效性。

Sep, 2020

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

Language Matters: 一种弱监督的视觉 - 语言预训练方法用于场景文字检测和定位

本文提出了一种弱监督的预训练方法 oCLIP，该方法通过联合学习视觉和文本信息来获取有效的场景文本表示，并能从弱注释文本中学习，可以有效地应对 OCR 任务。实验证明，该方法在多个公共数据集上都优于现有的预训练技术。

Mar, 2022

无需对齐视频和文本数据的可伸缩精准的自监督多模态表征学习

本文介绍了利用图像字幕预训练高质量视频模型的方法，并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效，使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能，并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。

Apr, 2023

使用统一条件模型的自训练视觉语言 BERTs

提出了一种自我训练的方法，用于从未标注的图像数据中训练 VL-BERT 模型，模型采用统一的有条件模型，能够执行零样本条件生成，通过该方法使用仅 300k 个未标注的额外数据，可以获得与训练了 300 万个图像数据的相似模型大小的模型相媲美或甚至更好的性能

Jan, 2022