XDBERT：从跨模态系统中提取视觉信息以改善语言理解的 BERT 知识蒸馏模型

ACLApr, 2022

XDBERT：从跨模态系统中提取视觉信息以改善语言理解的 BERT 知识蒸馏模型

XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding

Chan-Jan Hsu, Hung-yi Lee, Yu Tsao

TL;DR本文旨在研究如何将预训练的异模态 transformers 的视觉信息提炼给语言编码器，提出了一个被称为 XDBERT 的新框架，经过训练后在常规语言理解评估（GLUE）、有对抗生成的情况（SWAG）以及可读性基准测试上比预训练的 BERT 表现更好，并分析了 XDBERT 在 GLUE 上的表现，证明了改进很可能是基于视觉语言的。

Abstract

transformer-based models are widely used in natural language understanding (NLU) tasks, and multimodal transformers have been effective in visual-language tasks. This study explores distilling visual information

transformer-based models multimodal transformers pretrained language encoders cross-modal encoders visual-language tasks

发现论文，激发创造

DiMBERT: 学习具有分离多模态注意的视觉语言基础表示

DiMBERT 是一个新的框架，利用分离的注意力空间对多模态信息进行处理，在引入视觉概念的同时，在文本格式中表示视觉信息，从而加强对视觉和语言之间关联的捕捉，可以用于图像描述，视觉叙事和指称表达的分类任务，并可以轻松的集成到现有的视觉和语言模型中以提高性能。

Oct, 2022

VD-BERT: 一个与 BERT 结合的统一视觉和对话 Transformer

该研究提出的 VD-BERT 框架，是一种简单且有效的视觉 - 对话 Transformer 编码器，可以通过统一的编码器捕获图像和多回合对话之间的交互，并通过与 BERT 语言模型的整合实现回答的排名和生成，同时无需预训练外部视觉 - 语言数据即可获得最新的最高水平。

Apr, 2020

视觉语言理解的蒸馏双编码模型

提出了一种跨模态关注蒸馏框架来训练双编码器模型，以用于视觉语言理解任务，如视觉推理和视觉问答，并证明使用这种框架可以在保持比融合编码器模型更快的推理速度的同时实现竞争性的性能表现。

Dec, 2021

LXMERT：使用 Transformers 学习跨模态编码器表示

本文介绍了使用 LXMERT 框架进行视觉 - 语言推理的方法。该框架包括一个基于 Transformer 模型的对象关系编码器、语言编码器和跨模态编码器，并通过大量图像 - 句子对进行预训练，以学习在这两个模态之间的关系。通过微调这个预训练模型，在两个视觉问答数据集上取得了最先进的结果，并在 NLVR2 数据集上将之前最好的结果提高了 22%。

Aug, 2019

X-LXMERT: 使用多模态转换器进行绘画、字幕和回答问题

本文研究了图像生成模型中的视觉语言模型（V&L 模型）LXMERT，发现其效果不如其他图像生成模型，因此提出了 X-LXMERT 模型，通过训练优化使其生成图像的能力媲美最先进的生成模型，同时保持了它在问答和字幕生成任务上的优秀表现，并证明这些训练优化可以推广到其他 V&L 模型上。

Sep, 2020

VU-BERT：一个视觉对话的统一框架

本文提出了一种名为 VU-BERT 图文联合嵌入的框架，通过用 patch projection 获取视觉嵌入来简化模型，从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题，并在可视对话任务上取得了较高的竞争性表现。

Feb, 2022

建立跨语言密集检索模型的迁移学习方法

本文介绍了 ColBERT-X，这是一个使用 XLM-RoBERTa 编码器的多重表示稠密检索模型，用于支持跨语言信息检索（CLIR）。在几种语言的自适应文件排名任务上表现出了在传统词汇 CLIR 基线之上的显着和统计上的显着改进。

Jan, 2022

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

X-InstructBLIP: 一种将 X-Modal 指导感知表示与 LLMs 和新兴的跨模态推理对齐的框架

我们在这篇论文中介绍了一个简单而有效的跨模态框架，利用现有的大型语言模型，在 2D 视觉推理任务中通过将视觉编码器与最先进的语言模型对齐，展现了通用功能。我们通过收集高质量的调整数据，自动和可扩展地收集音频和 3D 方面 QA 样本，以便实现指导模态的微调。通过利用指导感知表达，我们的模型在无需大规模特定模态的预训练或自定义的情况下，表现出与领先模型相当的性能。此外，我们的方法展现出在两个或更多输入模态中进行跨模态推理的能力，尽管每个模态投影都是单独训练的。为了研究模型的跨模态能力，我们提出了一个新颖的鉴别跨模态推理（DisCRn）评估任务，包括 9K 个音频 - 视频 QA 样本和 28K 个图像 - 3D QA 样本，要求模型在不同的输入模态之间进行鉴别性推理。

Nov, 2023

视觉与语言还是视觉为语言？多模态 Transformer 中的跨模态影响

研究了预训练的视觉和语言 BERT 学习跨模态信息组合表示的方法，通过交叉模态输入消融来评估这些模型集成跨模态信息的程度，并发现最近提出的模型在处理缺失视觉信息的情况下比处理缺失文本信息的情况更难，表明这些模型不是对称的跨模态。

Sep, 2021