统一输入输出：视觉、语言和多模态任务的统一模型

Jun, 2022

统一输入输出：视觉、语言和多模态任务的统一模型

Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks

Jiasen Lu, Christopher Clark, Rowan Zellers, Roozbeh Mottaghi, Aniruddha Kembhavi

TL;DRUnified-IO 是一种模型，它可以执行各种人工智能任务，包括传统的计算机视觉任务、视觉与语言任务和自然语言处理任务，通过将每个任务的异构输入和输出转换为离散词汇令其有共同的表示方式，从而实现使用一个单一的基于 transformer 的架构，针对视觉和语言领域的 90 多个不同数据集联合训练，其能够在诸如 NYUv2-Depth、ImageNet、VQA2.0 等 16 个不同基准测试中产生强大的结果，这是第一个不需要针对特定任务进行微调即可执行所有 7 个 GRIT 基准任务的模型。

Abstract

We propose unified-io, a model that performs a large variety of ai tasks spanning classical computer vision tasks, including pose estimati

unified-io ai tasks computer vision natural language processing transformer-based architecture

发现论文，激发创造

统一 IO 2：使用视觉、语言、音频和动作扩展自回归多模态模型

我们提出了 Unified-IO 2，这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。通过将输入和输出（图像、文本、音频、动作和边界框等）进行分词，在共享语义空间中统一不同的模态，并使用单个编码器 - 解码器变换器模型进行处理。通过从多样化来源的大型多模态预训练语料库中使用多模态混合去噪目标对模型进行从头训练，我们提出了各种架构改进来稳定模型训练。为了学习广泛的技能，如遵循多模态指令，我们构建并在包含提示和增强的 120 个数据集的集合上进行微调。通过一个统一的模型，Unified-IO 2 在 GRIT 基准测试中实现了最先进的性能，并在超过 35 个基准测试中取得了强大的结果，包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操控。我们将所有模型发布给研究社区。

Dec, 2023

图像、视频、音频和语言任务的统一模型

通过 UnIVAL 统一模型，可以有效地支持图像、文本、视频和音频等多种模态任务，并通过模型权重插值实现多模态模型融合，展示其在特定领域的分布外泛化能力。

Jul, 2023

Uni3DL: 三维和语言理解的统一模型

Uni3DL 是一个统一的 3D 和语言理解模型，它运用于点云而不是传统的多视图图像，实现了对多种 3D 任务的支持，包括语义分割、目标检测、实例分割、视觉定位、3D 字幕和文本 - 3D 跨模态检索，并且在性能上超过了最先进的特定任务模型。

Dec, 2023

UNIMO-2: 端到端的统一视觉语言基础学习

本文提出了一种联合学习视觉、文本和不对齐图像和文本语料库之间的符号对齐的端到端 UNIMO-2 统一模态预训练框架，采用 “基础学习” 方案，成功地提高了一些跨模态任务的性能与视觉和文本语义对齐。

Mar, 2022

UniT：统一变形器进行多模态多任务学习

我们提出了一种名为 UniT 的统一 Transformer 模型，该模型可以同时学习不同领域中最重要的任务，从目标检测到自然语言理解和多模态推理，在编码器 - 解码器架构的基础上，通过编码器对每个输入模态进行编码，并使用共享解码器对编码的输入表示进行每个任务的预测，然后是特定于任务的输出头。我们的实验证明，在 8 个数据集上联合学习 7 个任务，使用比以前的工作更少的参数，在每个任务上都获得了强大的性能。

Feb, 2021

UNIMO-3：多粒度视觉语言交互表示学习

本研究提出了 UNIMO-3 模型，旨在解决现有视觉 - 语言预训练模型中的跨模态交互问题，并能同时学习多模态的在层交互和跨层交互，实验结果显示该模型达到了最新工作的最好结果。

May, 2023

视觉任务的统一序列接口

本文提出一种基于共享像素到序列接口的框架，将计算机视觉中的四种不同任务（对象检测、实例分割、关键点检测和图像字幕）的输出形式都改为序列输出，并且可以通过短提示来实现任务特定的输出，证明可以用单个模型架构和损失函数在这些任务上进行训练，达到与传统模型相似的性能表现。

Jun, 2022

UniFine: 一种用于零样本视觉 - 语言理解的统一和细粒度方法

本文提出了一个统一的框架，以利用精细的信息实现零样本视觉语言学习，涵盖了多个任务，如视觉问题回答，SNLI-VE 和 VCR，并证实了该方法的有效性和泛化性。

Jul, 2023

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

4M-21：面向数十项任务和模态的任意到任意视觉模型

通过对多个多媒体形式进行联合训练和扩展，我们成功地提升了多模态模型的能力，并展示了训练一个模型以解决更多任务 / 多模态性的可能性，而不损失性能，从而实现更精细化和可控的多模态生成能力。

Jun, 2024