多模态生成预训练

Jul, 2023

Generative Pretraining in Multimodality

Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang...

TL;DR本文介绍了 Emu—— 一种基于 Transformer 的多模态基础模型，它可以在多模态语境中无缝生成图像和文本。该模型可通过单一模型进行全自回归训练，将任何单模态或多模态数据输入混合 (例如，交错的图像、文本和视频)，并表现得十分出色。

Abstract

We present emu, a transformer-based multimodal foundation model, which can seamlessly generate images and texts in →

emu transformer-based multimodal image-text pairs autoregressive training

发现论文，激发创造

生成多模态模型是上下文学习者

我们展示了一个 37 亿参数的生成式多模态模型 Emu2，通过在大规模多模态序列上训练，使模型具备了强大的多模态上下文学习能力，甚至能够解决需要实时推理的任务，如视觉提示和目标驱动生成。该模型在少样本情况下刷新了多个多模态理解任务的记录，并在指令调整后在问题回答和主题驱动生成等挑战性任务上达到了最新的最高水平。这些成就表明 Emu2 可以作为一个基准模型和广泛应用于各种多模态任务的通用接口。

Dec, 2023

MUMU：从文本到图像数据引导多模态图像生成

我们训练了一个模型，从混合了文本和图片的多模态提示中生成图片，例如 “一个 < 图片里有一个男人> 男人和他的 <图片里有一只狗> 狗以 <图片里有一只卡通> 动画风格画的。” 我们通过从合成生成的和公开可用的文本 - 图片数据的图像标题中提取对应于单词的语义上有意义的图像裁剪，引导一个多模态数据集。我们的模型 MUMU 由一个具有扩散解码器的视觉 - 语言模型编码器组成，并在单个 8xH100 GPU 节点上进行训练。尽管只是训练在来自同一图片的裁剪上，MUMU 学会将来自不同图片的输入组合成一致的输出。例如，一个真实人物和一个卡通的输入会以卡通风格输出相同的人物，一个站立的主题和一个滑板车的输入会输出主题骑着滑板车。因此，我们的模型在风格转换和角色一致性等任务上具有泛化能力。我们的结果显示了将多模态模型作为图像生成的通用控制器的潜力。

Jun, 2024

通过草堆中的靓丽针使图像生成模型更上一层楼

通过在网络规模的图像 - 文本对上训练文本到图像模型，可以从文本生成广泛的视觉概念，但是这些经过预训练的模型在生成高度美学化图像方面往往面临挑战，因此需要进行美学对齐的预训练后处理。本文中，我们提出了质量微调方法，以有效地指导经过预训练的模型专门生成高度视觉吸引力图像，同时保持对视觉概念的普适性。我们的关键洞察是，使用一组数量惊人少但极具视觉吸引力的图像进行有监督的精细调整可以显著提高生成质量。我们在 11 亿个图像 - 文本对上预训练潜在扩散模型，并仅使用几千个精心挑选的高质量图像进行微调。得到的模型 Emu 在美学上的胜率为 82.9％，相比仅经过预训练的模型。与最先进的 SDXLv1.0 相比，在标准的 PartiPrompts 和我们的基于真实世界文本到图像模型使用情况的 Open User Input 基准测试上，Emu 被优先选择的概率分别为 68.4％和 71.3％。此外，我们还展示了质量微调是一种通用方法，在其他架构中也同样有效，包括像素扩散和掩膜生成变压器模型。

Sep, 2023

MultiFusion：预训练模型融合用于多语言，多模态图像生成

本文提出了一种名为 MultiFusion 的方法，利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中，从而大幅提高了效率。实验证明，MultiFusion 可以将各个独立的组件整合起来，使图像生成模块能够利用来自各种语言和模态的输入。

May, 2023

文本的双模态：视觉和文本生成预训练

对于像素级语言模型，本论文介绍了一种新颖的预训练框架，通过在超过 4 亿个文档渲染的 RGB 图像上预训练，采用双模态训练方案，结合视觉数据和文本数据，通过下一个块预测和分类头预测进行训练，并展示了将视觉和文本数据结合的潜力及有效性。

Apr, 2024

多模态视频字幕生成的端到端生成预训练

提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT)，通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标，以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。

Jan, 2022

利用多模态语言模型生成图像

该论文提出了一种方法，通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中，利用它们的嵌入空间之间的映射来融合两者，从而实现多模态的图像检索、新颖图像生成和多模态对话，同时还能生成并处理图像和文本输入，比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。

May, 2023

双向图像与文本生成统一多模态转换器

本文研究了图片到文本和文本到图片生成的联合学习，使用了基于 Transformer 的单个多模式模型来统一学习双向任务，并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架，实验证明，该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID（37.0→29.9）和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分（100.9%→122.6%）。

Oct, 2021

Emu: 利用语义专业化增强多语言句子嵌入

Emu 是一个可在多语言中加强句子语义的系统，其利用语义分类器和语言鉴别器两大主要组件对预训练的多语言句子嵌入进行微调，以提高相关句子的语义相似度和通过多语言对抗式训练来增强多语言性能，并经多种语言对的实验结果表明，在仅使用单语标记数据的情况下，我们专门的嵌入模型在跨语言意图分类任务上优于最先进的多语言句子嵌入模型。

Sep, 2019

多任务多模态提示训练用于交互式具象任务完成

我们提出了一种统一的编码 - 解码模型，称为 Embodied MultiModal Agent (EMMA)，可以处理交互和具身任务，其中每个任务对目标完成做出贡献，取得了与类似模型相当的性能并在 Dialog-guided Task Completion (DTC) 中取得了新的最佳结果（36.81% 的成功率）用于评估 Alexa Arena 中的对话引导代理。

Nov, 2023