4M-21：面向数十项任务和模态的任意到任意视觉模型

Jun, 2024

4M-21：面向数十项任务和模态的任意到任意视觉模型

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

Roman Bachmann, Oğuzhan Fatih Kar, David Mizrahi, Ali Garjani, Mingfei Gao...

TL;DR通过对多个多媒体形式进行联合训练和扩展，我们成功地提升了多模态模型的能力，并展示了训练一个模型以解决更多任务 / 多模态性的可能性，而不损失性能，从而实现更精细化和可控的多模态生成能力。

Abstract

Current multimodal and multitask foundation models like 4M or UnifiedIO show promising results, but in practice their out-of-the-box abilities to accept diverse inputs and perform diverse tasks are limited by the (usually rather small) number of modalities and tasks they are trained on. In this paper, we expand upon the capabilities of them by →

multimodal models co-training diverse modalities training fine-grained multimodal generation

发现论文，激发创造

4M：大规模多模态蒙版建模

通过提出一种名为 4M 的多模态训练方案，将文本、图像、几何和语义模态，以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练，论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面的潜力和优势，并为多模态学习在视觉和其他领域的进一步探索提供了基础。

Dec, 2023

图像、视频、音频和语言任务的统一模型

通过 UnIVAL 统一模型，可以有效地支持图像、文本、视频和音频等多种模态任务，并通过模型权重插值实现多模态模型融合，展示其在特定领域的分布外泛化能力。

Jul, 2023

一种高效的通用模块化视觉模型，通过多任务异构训练实现

我们提出了一种通用视觉模型，采用集成式的训练方式，使其可同时进行多任务，具有较强的泛化能力和模块化特性，并可在保证较小的训练参数、模型参数和计算量的同时，灵活地满足各种下游任务的需求，且适用于不断学习而无需遗忘的情境。

Jun, 2023

探索全模态大规模预训练的极限

我们提出了建立全模态智能的方法，能够理解任何模态并学习通用表示。通过提出一种可扩展的预训练模式 —— 多模态上下文（MiCo），我们能够在预训练过程中扩大模态数量、数据量和模型参数。MiCo 预训练模型在多模态学习中展现出重要的新能力，并在 10 种不同模态的单一模态感知基准、25 种跨模态理解任务（包括检索、问答、字幕生成）和 18 种多模态大型语言模型基准上获得了 37 项最新成果记录。我们希望我们的研究能够为全模态智能的发展做出贡献。

Jun, 2024

统一 IO 2：使用视觉、语言、音频和动作扩展自回归多模态模型

我们提出了 Unified-IO 2，这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。通过将输入和输出（图像、文本、音频、动作和边界框等）进行分词，在共享语义空间中统一不同的模态，并使用单个编码器 - 解码器变换器模型进行处理。通过从多样化来源的大型多模态预训练语料库中使用多模态混合去噪目标对模型进行从头训练，我们提出了各种架构改进来稳定模型训练。为了学习广泛的技能，如遵循多模态指令，我们构建并在包含提示和增强的 120 个数据集的集合上进行微调。通过一个统一的模型，Unified-IO 2 在 GRIT 基准测试中实现了最先进的性能，并在超过 35 个基准测试中取得了强大的结果，包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操控。我们将所有模型发布给研究社区。

Dec, 2023

面向统一的多模式个性化：基于大型视觉语言模型的生成式推荐及其延伸

UniMP 是一种统一的多模式个性化系统的范式，通过使用多模态数据并消除任务和模态特定定制的复杂性，充分发挥了基础生成模型的灵活性和效力，以实现广泛的个性化需求，包括物品推荐、产品搜索、偏好预测、解释生成和用户引导的图像生成。

Mar, 2024

12 合 1：多任务视觉和语言表示学习

本篇文章通过开发一个大规模、多任务训练体系，研究了不同任务之间的相互关系，提出了一个单一模型，可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下，同时取得以往 3 亿多参数内单一任务模型的总和，且性能提高了 2.05 个百分点，并进一步表明，从单一多任务模型微调任务特定模型会进一步提高性能。

Dec, 2019

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

MultiFusion：预训练模型融合用于多语言，多模态图像生成

本文提出了一种名为 MultiFusion 的方法，利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中，从而大幅提高了效率。实验证明，MultiFusion 可以将各个独立的组件整合起来，使图像生成模块能够利用来自各种语言和模态的输入。

May, 2023

基于多模态基础模型的鲁棒多模态学习

提出了一种简单而有效的框架 TRML，即利用多模态基础模型进行鲁棒多模态学习，通过生成虚拟模态替代丢失模态，并对生成和丢失模态之间的语义空间进行对齐，从而捕捉缺失模态的语义。在完整模态的情况下，我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。

Jan, 2024