InterBERT：多模态预训练中的视觉 - 语言交互

Mar, 2020

InterBERT：多模态预训练中的视觉 - 语言交互

InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining

Junyang Lin, An Yang, Yichang Zhang, Jie Liu, Jingren Zhou...

TL;DR该论文提出了一种基于多模态预训练的新型模型 InterBERT，通过预训练的方式实现了多个任务，包括掩码片段建模、掩码区域建模和图像与文本匹配，并在视觉和语言下游任务上进行了 fine-tuning，最终实现了基于主题的推荐和基于文本的图像检索。

Abstract

multi-modal pretraining for learning high-level multi-modal representation is a further step towards deep learning and artificial intelligence. In this work, we propose a novel model, namely interbert (BERT for I

multi-modal pretraining interbert interaction modeling masked segment modeling image-text matching

发现论文，激发创造

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

图像作为外语：BEiT 预训练模型用于所有视觉和视觉语言任务

本文介绍了通用的多模态基础模型 BEiT-3，通过三个方面的改进：骨干架构、预训练任务和模型扩展，实现了在视觉和视觉语言任务上的最先进转移性能。

Aug, 2022

Switch-BERT: 通过切换注意力和输入来学习建模多模态交互

本文提出了一种名为 Switch-BERT 的多模态机器学习模型，它通过引入可学习的分层和交叉层交互来优化注意力集合，从而解决了多样输入模态和固定结构下的模态不匹配问题，实现了良好的视觉问答、图像文本检索和指代表达理解等任务的性能。

Jun, 2023

多模态预训练揭示：视觉和语言 BERT 的元分析和统一框架

本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验，分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言 BERT 的差异进行经验研究，揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因，同时将两类网络统一在同一理论框架之下，指出 embedding layer 在这些模型中具有至关重要的作用。

Nov, 2020

交叉 BERT 用于点云预训练

通过引入 BERT 到跨模态的环境中，本文提出了一种新的跨模态 BERT 风格的自监督学习范式，称为 Cross-BERT，通过探索相同对象 / 场景的 2D 和 3D 数据之间的隐含语义和几何关系来提高 3D 点云表示的性能，以及 BERT 在不同模态之间的传递能力。

Dec, 2023

DiMBERT: 学习具有分离多模态注意的视觉语言基础表示

DiMBERT 是一个新的框架，利用分离的注意力空间对多模态信息进行处理，在引入视觉概念的同时，在文本格式中表示视觉信息，从而加强对视觉和语言之间关联的捕捉，可以用于图像描述，视觉叙事和指称表达的分类任务，并可以轻松的集成到现有的视觉和语言模型中以提高性能。

Oct, 2022

WenLan：大规模多模态预训练桥接视觉和语言

本文介绍了作者团队领导的 “文兰” 项目的主要研究方向，即通过两个塔的 BriVL 预训练模型和跨模态对比学习框架的先进算法，隐式地建模跨模态关联，从而更成功地实现大规模多模态预训练。同时，他们还建立了一个大规模的中文多源图像文本语料库，称为 RUC-CAS-WenLan，用于 BriVL 模型的预训练。实验结果表明，预训练的 BriVL 模型在各种下游任务中的性能优于 UNITER 和 OpenAI CLIP。

Mar, 2021

ST-BERT：跨模态语言模型预训练用于端到端口语理解

本文介绍了一种跨模态预训练语言模型 ——Speech-Text BERT（ST-BERT），通过两种预训练任务（Cross-modal Masked Language Modeling and Cross-modal Conditioned Language Modeling）学习上下文跨模态对齐，对端到端的口语语言理解任务进行了解决，实验结果证明，该方法有效。同时，我们的方法通过使用特定于域的语音文本对数据进行域自适应预训练来提高 SLU 性能的表现。

Oct, 2020

ViLBERT：预训练无任务束缚的视觉语言表示，用于视觉与语言任务

ViLBERT 是一种用于学习图像内容和自然语言的任务不可知联合表示的模型，并通过在多模态两个流中处理图像和文本输入，通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型，然后通过仅对基础体系结构进行轻微添加，将其转移到多个已建立的视觉语言任务 —— 视觉问答、视觉常识推理、指称表达和基于字幕的图像检索，我们观察到与现有特定任务模型相比，在所有四个任务中都实现了显着的改进，成为学习视觉与语言之间接地只作为任务培训的一部分，而不是对待视觉接地作为可预训练和可转移能力的代表性工作。

Aug, 2019

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023