MAGVLT: 遮盖式生成式视觉与语言转换器

Mar, 2023

MAGVLT: 遮盖式生成式视觉与语言转换器

MAGVLT: Masked Generative Vision-and-Language Transformer

Sungwoong Kim, Daejin Jo, Donghoon Lee, Jongmin Kim

TL;DR本篇论文提出了一种基于变压器的联合视觉与语言模型，名为MAGVLT，它可以生成图像和文本序列，并且相对于以前的模型具有双向上下文编码和更快的并行词汇预测等优点。经过实验证明，MAGVLT可以在零样本情况下使用较小的模型（少于500M参数）在 MS-COCO 数据集上取得很好的成果。

Abstract

While generative modeling on multimodal image-text data has been actively developed with large-scale paired datasets, there have been limited attempts to generate both image and text data by a single model rather than a generation of one fixed modality conditioned on the other modality

发现论文，激发创造

UNITER: 通用图像文本表示学习

本研究引入了UNITER，一种通过对四个图像-文本数据集（COCO，Visual Genome，Conceptual Captions和SBU Captions）进行大规模预训练学习的UNiversal image-text representation，其可为异构下游V + L任务提供联合多模态嵌入。

Sep, 2019

ViLT：无卷积或区域监督的视觉语言Transformer

本文提出了一种新的Vision-and-Language Pre-training模型ViLT，它是一种单体模型，与文本输入处理方式相同，并通过多模态交互步骤实现视觉输入处理。ViLT通过简化图像输入处理过程，使得模型训练更加高效，可以有效地提高下游任务的性能表现。

Feb, 2021

ERNIE-ViLG：双向视觉语言生成统一预训练

本文提出了基于Transformer模型的统一生成预训练框架 - ERNIE-ViLG，旨在处理双向图像-文本生成任务，采用图像量化模型并将图像生成和文本生成条件建模为自回归的生成任务，通过双向图像-文本生成建模易于实现语义对齐。在大规模数据集上进行训练，取得了针对文本-图像合成和图像描述任务的最佳表现。

Dec, 2021

DU-VLG：通过双序列预训练统一视觉和语言生成

本论文提出了一种名为DU-VLG的框架，该框架将视觉和语言生成视为序列生成问题，并通过双向生成，利用对图像和文本的成对处理。采用多模态降噪自编码器任务和模态翻译任务进行双重预训练，并设计了一种新的承诺损失方法，以提高图像生成的质量。研究结果表明，与采用单向生成目标或不使用承诺损失的变体相比，DU-VLG在图像字幕和文本到图像生成数据集上的性能更好，并在三个视觉和语言生成任务中获得了比以前的最先进系统更高的得分。此外，人类评测员进一步确认我们的模型生成了真实相关的图像并带有忠实和有信息的说明。

Mar, 2022

VL-BEiT: 生成式视觉-语言预训练

提出了一种称为VL-BEiT的视觉语言基础模型，使用生成预训练学习的双向多模态Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明，VL-BEiT在各种视觉语言基准测试中能够获得强大的结果，并学习到可转移的视觉特征，实现了在图像分类和语义分割上有着竞争性的表现。

Jun, 2022

Muse: 通过Masked生成变压器实现文本到图像生成

Muse是一种基于遮蔽建模任务在离散令牌空间中训练的文本到图像Transformer模型，借助预训练的大型语言模型，实现了高度还原原始文本意图的图像生成能力，同时也能够直接应用于图像编辑等任务。

Jan, 2023

i-Code V2：基于视觉、语言和语音数据的自回归生成框架

文章提出了i-Code V2，这是第一个能够从任何视觉、语言和语音数据组合中生成自然语言的模型，它通过利用最先进的单模态编码器将各类模态组合并映射到一个共享表征空间，并使用自回归解码器从这些表征中生成语言词汇。i-Code V2在大量数据集上进行端到端预训练，通过文本补全目标实现泛化在任意模态组合上，展示出了多模态预训练在各种任务和信号方面的强大性能。

May, 2023

SimVLG: 简单高效的视觉语言生成模型预训练

本文提出了“SimVLG”——一种用于预训练计算密集型视觉语言生成模型的简化框架，利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段，从而实现了快速收敛而不损失性能。实验证明，我们的方法可以将视觉语言模型的训练速度提高5倍，而整体性能几乎没有明显影响。此外，我们展示了我们的模型只需原数据的十分之一即可达到与当前视觉语言模型相当的性能。最后，我们通过一种新颖的软性注意力时序标记合并模块展示了如何轻松将我们的图像-文本模型应用于视频-语言生成任务。

Oct, 2023

VL-GPT：用于视觉与语言理解与生成的生成式预训练Transformer模型

VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

Lumina-mGPT：通过多模态生成预训练实现灵活的照片级真实感文本到图像生成

本研究聚焦于改进现有的文本到图像生成技术，提出Lumina-mGPT模型，利用多模态生成预训练（mGPT）进行灵活的照片级真实感图像生成。我们的主要发现表明，使用简单的解码器变换器与高质量图像-文本对联合微调，可以在各个分辨率下实现高审美图像合成，并保持广泛的多模态能力。

Aug, 2024