CM3: 互联网因果蒙特卡罗多模态模型

Jan, 2022

CM3: 互联网因果蒙特卡罗多模态模型

CM3: A Causal Masked Multimodal Model of the Internet

Armen Aghajanyan, Bernie Huang, Candace Ross, Vladimir Karpukhin, Hu Xu...

TL;DR介绍了 CM3 模型，是一种因果掩模生成模型，用于训练多模态文件的大型语料库，可生成结构化文本或图像，支持双向上下文依赖，具有接近最先进性能的能力，能够通过单个模型完成零 - shot 任务的多模态生成、文本摘要、实体链接、实体消岐等。

Abstract

We introduce CM3, a family of causally masked generative models trained over a large corpus of structured multi-modal documents that can contain both text and image tokens. Our new causally masked approach genera

causally masked generative models multi-modal documents language-image models structured outputs zero-shot tasks

发现论文，激发创造

检索增强的多模态语言建模

提出了一种 “检索增强的多模态模型”，结合了预检索检索任务和预训练的模型，在图像生成和描述生成任务上实现了比以前模型更好的表现，同时大大降低了训练成本。

Nov, 2022

自回归多模态模型的扩展：预训练和指导调整

CM3Leon 是一种检索增强的令牌化、仅解码器的多模式语言模型，能够生成和填充文本和图像，通过多模式体系结构实现规模化和调优多样化指导式数据的极大益处，附加了大规模检索增强预训练阶段和第二个多任务监督微调阶段。它是一种通用模型，可以进行文本到图像和图像到文本的生成，可生成高质量输出的自包含对比解码方法。广泛实验证明了这种方法对多模态模型的高效性，CM3Leon 在文本到图像生成方面实现了最先进的性能，训练计算量比可比方法少 5 倍（零样本 MS-COCO FID 为 4.88）。经过微调后，CM3Leon 还可以展示在从语言引导的图像编辑到图像控制生成和分割的任务中前所未有的可控水平。

Sep, 2023

4M：大规模多模态蒙版建模

通过提出一种名为 4M 的多模态训练方案，将文本、图像、几何和语义模态，以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练，论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面的潜力和优势，并为多模态学习在视觉和其他领域的进一步探索提供了基础。

Dec, 2023

探索文本生成的屏蔽语言建模和因果语言建模

这篇论文比较了掩码语言模型和因果语言模型在文本生成任务上的表现，发现掩码语言模型在生成文本时具有更好的质量和连贯性，并且对下游任务的性能没有明显影响，从而显示了掩码语言模型在文本生成方面具有巨大的潜力并指导了未来研究的方向。

May, 2024

C3LLM: 使用大型语言模型的条件多模式内容生成

我们介绍了 C3LLM（Conditioned-on-Three-Modalities Large Language Models），它是一个新颖的框架，将视频到音频、音频到文本和文本到音频三个任务结合在一起。C3LLM 以大型语言模型（LLM）结构为基础，作为不同模态对齐、综合给定条件信息并以离散方式进行多模态生成的桥梁。我们的贡献如下：首先，我们使用预训练音频码本为音频生成任务自适应了分层结构。具体而言，我们训练 LLM 从给定条件生成音频语义标记，并进一步使用非自回归变压器在层级中生成不同级别的声学标记以增强生成音频的保真度。其次，基于 LLM 最初设计用于具有下一个词预测方法的离散任务的直觉，我们使用离散表示进行音频生成，并将其语义含义压缩为声学标记，类似于向 LLM 添加 “声学词汇”。第三，我们的方法将以前的音频理解、视频到音频生成和文本到音频生成任务结合到一个统一的模型中，以端到端的方式提供更多的灵活性。我们的 C3LLM 通过各种自动化评估指标实现了改进的结果，与以前的方法相比，提供了更好的语义对齐。

May, 2024

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021

基于条件掩码语言模型的神经机器翻译语义一致数据增强

本文介绍了一种新的神经机器翻译数据增强方法，可以在语言内外强制实现更强的语义一致性。结果表明，条件掩蔽语言模型是一种生成上下文相关单词分布的有效技术，并集成了软词替换的思想，以增强数据多样性，加强语义一致性。该方法在四个规模不同的翻译数据集上进行的实验结果，展示了更真实的数据增强和更好的翻译质量，相对于强和最新的工作，我们的方法一致实现了最佳性能，并相对于基线改进了高达 1.90 BLEU 分数。

Sep, 2022

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022

有条件掩码语言模型的通用句子表示学习

本文介绍了一种名为条件遮蔽语言建模（CMLM）的新型训练方法，用于在大规模未标记的语料库上有效地学习句子表示。CMLM 通过在编码相邻句子的向量上进行条件处理，将句子表示学习整合到 MLM 训练中。我们的英语 CMLM 模型在 SentEval 上取得了最先进的性能，并且胜过使用监督信号学习的模型。作为完全无监督的学习方法，CMLM 可以方便地扩展到广泛的语言和领域。我们发现，与位文检索（BR）和自然语言推断（NLI）任务共同训练的多语言 CMLM 模型在跨语言语义搜索等方面比以前最先进的多语言模型的基准模型有了很大的提高，例如改进了基准模型 10％。我们探索了学习表示的相同语言偏见，并提出了一种简单的，基于模型的方法来从表示中删除识别语言的信息，同时仍保留句子语义。

Dec, 2020