ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

Jan, 2020

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

Di Qi, Lin Su, Jia Song, Edward Cui, Taroon Bharti...

TL;DR本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Abstract

In this paper, we introduce a new vision-language pre-trained model -- imagebert -- for image-text joint embedding. Our model is a transformer

imagebert vision-language pre-training image-text embedding transformer

发现论文，激发创造

InterBERT：多模态预训练中的视觉 - 语言交互

该论文提出了一种基于多模态预训练的新型模型 InterBERT，通过预训练的方式实现了多个任务，包括掩码片段建模、掩码区域建模和图像与文本匹配，并在视觉和语言下游任务上进行了 fine-tuning，最终实现了基于主题的推荐和基于文本的图像检索。

Mar, 2020

图像作为外语：BEiT 预训练模型用于所有视觉和视觉语言任务

本文介绍了通用的多模态基础模型 BEiT-3，通过三个方面的改进：骨干架构、预训练任务和模型扩展，实现了在视觉和视觉语言任务上的最先进转移性能。

Aug, 2022

Pixel-BERT：基于深度多模态 Transformer 实现图像像素与文本的对齐

Pixel-BERT 是一种多模态的深度转换器，可以通过使用图像和文本数据对其进行联合学习，从而在像素和文本级别上进行语义连接，实现视觉和语言任务的更准确和彻底的连接，并解决了视觉任务中语义标签不平衡的问题。

Apr, 2020

VL-BEiT: 生成式视觉 - 语言预训练

提出了一种称为 VL-BEiT 的视觉语言基础模型，使用生成预训练学习的双向多模态 Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明，VL-BEiT 在各种视觉语言基准测试中能够获得强大的结果，并学习到可转移的视觉特征，实现了在图像分类和语义分割上有着竞争性的表现。

Jun, 2022

多模态预训练揭示：视觉和语言 BERT 的元分析和统一框架

本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验，分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言 BERT 的差异进行经验研究，揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因，同时将两类网络统一在同一理论框架之下，指出 embedding layer 在这些模型中具有至关重要的作用。

Nov, 2020

ST-BERT：跨模态语言模型预训练用于端到端口语理解

本文介绍了一种跨模态预训练语言模型 ——Speech-Text BERT（ST-BERT），通过两种预训练任务（Cross-modal Masked Language Modeling and Cross-modal Conditioned Language Modeling）学习上下文跨模态对齐，对端到端的口语语言理解任务进行了解决，实验结果证明，该方法有效。同时，我们的方法通过使用特定于域的语音文本对数据进行域自适应预训练来提高 SLU 性能的表现。

Oct, 2020

BEiT: 图像 Transformer 的 BERT 预训练

本研究介绍了一种名为 BEiT 的自监督视觉表示模型，使用双向编码器表示图像转换器并进行了预训练，效果显著。

Jun, 2021

用于图像和文本分类的监督多模式双向转换器

该研究介绍了一种监督式多模态双向 Transformer 模型，该模型融合了文本编码器和图像编码器的信息，并在各种多模态分类基准任务上获得了最先进的性能。

Sep, 2019

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

提高场景文本检测器的视觉语言预训练

本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用，提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能，通过三个 pretext tasks 来进行预训练，在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。

Apr, 2022