X-LXMERT: 使用多模态转换器进行绘画、字幕和回答问题

EMNLPSep, 2020

X-LXMERT: 使用多模态转换器进行绘画、字幕和回答问题

X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers

Jaemin Cho, Jiasen Lu, Dustin Schwenk, Hannaneh Hajishirzi, Aniruddha Kembhavi

TL;DR本文研究了图像生成模型中的视觉语言模型（V&L 模型）LXMERT，发现其效果不如其他图像生成模型，因此提出了 X-LXMERT 模型，通过训练优化使其生成图像的能力媲美最先进的生成模型，同时保持了它在问答和字幕生成任务上的优秀表现，并证明这些训练优化可以推广到其他 V&L 模型上。

Abstract

Mirroring the success of masked language models, vision-and-language counterparts like ViLBERT, lxmert and UNITER have achieved state of the art performance on a variety of multimodal discriminative tasks like visual question answering and visual grounding. Recent work has also success

vision-and-language models image generation lxmert x-lxmert generative models

发现论文，激发创造

LXMERT：使用 Transformers 学习跨模态编码器表示

本文介绍了使用 LXMERT 框架进行视觉 - 语言推理的方法。该框架包括一个基于 Transformer 模型的对象关系编码器、语言编码器和跨模态编码器，并通过大量图像 - 句子对进行预训练，以学习在这两个模态之间的关系。通过微调这个预训练模型，在两个视觉问答数据集上取得了最先进的结果，并在 NLVR2 数据集上将之前最好的结果提高了 22%。

Aug, 2019

LXMERT 模型压缩用于视觉问答

本研究通过结合 LXMERT 模型的特点和可训练子网络的观察，评估在 VQA 任务上微调的 LXMERT 模型中是否存在可独立进行训练的子网络，并通过对模型大小利益分析，探究在不显著降低准确度的情况下可以进行多少程度的模型剪枝。实验结果表明，LXMERT 模型可以在减少 40% 至 60% 的情况下，仅损失 3% 的准确度。

Oct, 2023

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021

双向图像与文本生成统一多模态转换器

本文研究了图片到文本和文本到图片生成的联合学习，使用了基于 Transformer 的单个多模式模型来统一学习双向任务，并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架，实验证明，该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID（37.0→29.9）和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分（100.9%→122.6%）。

Oct, 2021

XDBERT：从跨模态系统中提取视觉信息以改善语言理解的 BERT 知识蒸馏模型

本文旨在研究如何将预训练的异模态 transformers 的视觉信息提炼给语言编码器，提出了一个被称为 XDBERT 的新框架，经过训练后在常规语言理解评估（GLUE）、有对抗生成的情况（SWAG）以及可读性基准测试上比预训练的 BERT 表现更好，并分析了 XDBERT 在 GLUE 上的表现，证明了改进很可能是基于视觉语言的。

Apr, 2022

超越图像 - 文本匹配：多模态变换器中使用引导掩模进行动词理解

本研究提出了一种指导掩蔽的探测方法，评估最近的多模态图像语言变形器模型的学习表示能力，重点研究考虑感兴趣区域（ROI）特征作为输入标记的多模态模型，通过指导掩蔽分析动词的理解能力，在 ViLBERT、LXMERT、UNITER 和 VisualBERT 模型中，我们展示出这些模型能够以高准确度预测正确的动词。

Jan, 2024

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

Unicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现

通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，取得了领先或可比的结果，展示了交叉模态预训练的强大能力。

Aug, 2019