自回归多模态模型的扩展：预训练和指导调整

Sep, 2023

自回归多模态模型的扩展：预训练和指导调整

Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva...

TL;DRCM3Leon 是一种检索增强的令牌化、仅解码器的多模式语言模型，能够生成和填充文本和图像，通过多模式体系结构实现规模化和调优多样化指导式数据的极大益处，附加了大规模检索增强预训练阶段和第二个多任务监督微调阶段。它是一种通用模型，可以进行文本到图像和图像到文本的生成，可生成高质量输出的自包含对比解码方法。广泛实验证明了这种方法对多模态模型的高效性，CM3Leon 在文本到图像生成方面实现了最先进的性能，训练计算量比可比方法少 5 倍（零样本 MS-COCO FID 为 4.88）。经过微调后，CM3Leon 还可以展示在从语言引导的图像编辑到图像控制生成和分割的任务中前所未有的可控水平。

Abstract

We present cm3leon (pronounced "Chameleon"), a retrieval-augmented, token-based, decoder-only multi-modal language model capable of genera

cm3leon multi-modal language model retrieval-augmented text-to-image generation self-contained contrastive decoding

发现论文，激发创造

检索增强的多模态语言建模

提出了一种 “检索增强的多模态模型”，结合了预检索检索任务和预训练的模型，在图像生成和描述生成任务上实现了比以前模型更好的表现，同时大大降低了训练成本。

Nov, 2022

CM3: 互联网因果蒙特卡罗多模态模型

介绍了 CM3 模型，是一种因果掩模生成模型，用于训练多模态文件的大型语料库，可生成结构化文本或图像，支持双向上下文依赖，具有接近最先进性能的能力，能够通过单个模型完成零 - shot 任务的多模态生成、文本摘要、实体链接、实体消岐等。

Jan, 2022

基于预训练嵌入的多语言和多模态主题建模

本文介绍了一种新颖的多模态多语言（M3L）神经话题模型 M3L-Contrast，用于可比较数据，将多种语言和图像映射到共享的话题空间中，该模型利用预训练的文本和图像嵌入，抽象不同语言和模态之间的复杂性，并产生对齐的语言特定话题。同时，该模型还可以推断图像中语义概念的文本表示。我们证明了我们的模型在预测可比较的多语言数据的话题分布方面与零 - shot 模型相当，且在预测可比较的文本和图像的话题分布方面比零 - shot 模型表现更好。同时，我们还展示了我们的模型在未对齐嵌入上的表现几乎与在对齐嵌入上的表现一样好。

Nov, 2022

C3LLM: 使用大型语言模型的条件多模式内容生成

我们介绍了 C3LLM（Conditioned-on-Three-Modalities Large Language Models），它是一个新颖的框架，将视频到音频、音频到文本和文本到音频三个任务结合在一起。C3LLM 以大型语言模型（LLM）结构为基础，作为不同模态对齐、综合给定条件信息并以离散方式进行多模态生成的桥梁。我们的贡献如下：首先，我们使用预训练音频码本为音频生成任务自适应了分层结构。具体而言，我们训练 LLM 从给定条件生成音频语义标记，并进一步使用非自回归变压器在层级中生成不同级别的声学标记以增强生成音频的保真度。其次，基于 LLM 最初设计用于具有下一个词预测方法的离散任务的直觉，我们使用离散表示进行音频生成，并将其语义含义压缩为声学标记，类似于向 LLM 添加 “声学词汇”。第三，我们的方法将以前的音频理解、视频到音频生成和文本到音频生成任务结合到一个统一的模型中，以端到端的方式提供更多的灵活性。我们的 C3LLM 通过各种自动化评估指标实现了改进的结果，与以前的方法相比，提供了更好的语义对齐。

May, 2024

利用多模态语言模型生成图像

该论文提出了一种方法，通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中，利用它们的嵌入空间之间的映射来融合两者，从而实现多模态的图像检索、新颖图像生成和多模态对话，同时还能生成并处理图像和文本输入，比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。

May, 2023

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022

变色龙：混合模式早期融合基础模型

Chameleon 是一种早期融合的基于令牌的混合模态模型系列，能够理解和生成任意顺序的图像和文本。它在图像问答、图像描述、文本生成、图像生成和长格式混合模态生成等任务上展现了广泛和通用的能力，包括在图像描述任务中达到了最先进的性能水平，同时在纯文本任务中超越了 Llama-2，与 Mixtral 8x7B 和 Gemini-Pro 等模型竞争，并且能够生成非平凡的图像，所有这些能力都集成在一个模型中。它还在全新的长格式混合模态生成评估中，通过人类评判匹配或超越了更大模型，包括 Gemini Pro 和 GPT-4V，该评估中的提示或输出包含混合的图像和文本序列。Chameleon 在统一建模完整多模态文档方面迈出了重要的一步。

May, 2024

MoMo: 一种用于文本、图像和多模态表示的共享编码器模型

本文提出了一种自主监督的共享编码器模型，在数据、内存和运行时效率高的同时，在几个视觉、语言和多模式基准测试中取得了强大结果。

Apr, 2023

联合训练大型自回归多模态模型

近年来，语言和文本到图像模型的大规模预训练的进步已经革新了机器学习领域。然而，将这两种模态集成到一个能够生成无缝多模态输出的强大模型仍然是一个重大挑战。为了解决这个问题，我们提出了联合自回归混合（JAM）框架，这是一种模块化的方法，系统地融合了现有的文本和图像生成模型。我们还引入了一种专门的、高效的数据调优策略，为混合模态生成任务量身定制。我们最终调优的模型在生成高质量多模态输出方面表现出了无与伦比的性能，并且代表了首个明确设计用于此目的的模型。

Sep, 2023

使用冻结语言模型的多模式小样本学习

通过对齐图像和标题数据，我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入，并使用预先训练的冻结语言模型来生成相应的标题，从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型，具有学习各种新任务的惊人能力，如用只有少数几个样例进行视觉问答，或者利用外部知识。

Jun, 2021