OmniNet: 多模态多任务学习的统一架构

Jul, 2019

OmniNet: 多模态多任务学习的统一架构

OmniNet: A unified architecture for multi-modal multi-task learning

Subhojeet Pramanik, Priyanka Agrawal, Aman Hussain

TL;DR本文介绍了一种名为 OmniNet 的神经网络框架，使用 Transformer、Spatio-temporal Cache 和自我注意机制来支持多模态学习和异步多任务学习，并演示了训练多个任务的模型在保持性能的前提下大幅度压缩的能力。

Abstract

transformer is a popularly used neural network architecture, especially for language understanding. We introduce an extended and unified architecture that can be used for tasks involving a variety of modalities like image, text, videos, etc. We propose a →

transformer multi-modal learning omninet self-attention mechanism spatio-temporal cache

发现论文，激发创造

S-Omninet: 结构化数据增强的通用多模态学习架构

本文扩展和改进了 Omninet 体系结构，引入了交叉缓存注意力、整合视觉输入的补丁嵌入和支持结构化数据，提出了增强型结构化数据 Omninet (S-Omninet) 模型，能够通过交叉缓存注意力和补丁嵌入在各维度的结构化数据和非结构化数据之间实现有效的相互作用。作者在多模态数据集上评估了所提出的模型，证明相比基准 Omninet 有了显著的性能提升。

Jul, 2023

OmniNet: 基于 Transformer 的全向表示

本文提出了一种名为 Omninet 的模型，通过利用元学习来学习全方位的自注意力机制，并使用高效的自注意力模型（如基于核的、低秩的和大型鸟）以缓解其高计算成本，经过在多项任务上的广泛实验，证明了这个模型在语言建模和图像识别方面已经取得了非常优秀的表现。

Mar, 2021

OmniVec：跨模态共享学习的鲁棒表示学习

学习基于任务的方法共享模态的共同之处，共同架构多任务多模态的网络，使得跨模态任务的联合训练能够实现信息共享并获得最先进的结果。

Nov, 2023

OmniFusion 技术报告

基于预训练的大型语言模型和视觉模态的适配器，我们提出了一种全融合模型 OmniFusion，通过比较多种架构设计原则、图像编码方法和不同的语言模型，在 8 个视觉语言基准测试中取得了最高得分，提供了在不同领域中的高度详细答案，同时我们还提供了 Mistral-based OmniFusion 模型的开源解决方案链接。

Apr, 2024

UniT：统一变形器进行多模态多任务学习

我们提出了一种名为 UniT 的统一 Transformer 模型，该模型可以同时学习不同领域中最重要的任务，从目标检测到自然语言理解和多模态推理，在编码器 - 解码器架构的基础上，通过编码器对每个输入模态进行编码，并使用共享解码器对编码的输入表示进行每个任务的预测，然后是特定于任务的输出头。我们的实验证明，在 8 个数据集上联合学习 7 个任务，使用比以前的工作更少的参数，在每个任务上都获得了强大的性能。

Feb, 2021

OmniMAE：图像和视频单模型遮蔽预训练

使用遮盖自编码器训练简单的 Vision Transformer，能够在多个视觉模态下获得与单一模态相当或更好的视觉表示，而只需使用单一的预训练模型，大大简化架构并加快训练速度。

Jun, 2022

元转换器：多模态学习的统一框架

通过使用冻结的编码器以及共享的令牌空间，Meta-Transformer 提出了一个框架，可以在 12 种不同的模态间进行统一学习，并处理多种任务，展现了转换器在发展统一多模态智能方面的潜力。

Jul, 2023

OmniVL: 图像 - 语言和视频 - 语言任务的基础模型

OmniVL 提出了一种新的基础模型，它通过使用一种通用架构来支持图像语言和视频语言任务，采用了一种统一的基于 Transformer 的视觉编码器，以此来实现联合图像语言和视频语言的预训练，并展示了这种范式的好处，并且这种模型能够同时支持视觉任务，跨模态任务和多模态理解。

Sep, 2022

学习多模态表示的自适应 Transformer

研究 transformers 中的注意机制对视觉和语言任务的扩展，并发展适应性方法来提高模型的可解释性和计算效率。具体地，研究注意范围、稀疏和结构化 dropout 等方法，以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。

May, 2020

论多模态推理中神经网络的泛化能力

评估了多模态泛化的综合性能，发现多层注意力和跨模态注意力是整合多模态输入所需的关键架构特征，但对于有限类型的多模态泛化存在基本限制，强调了现代神经模型在多模态推理方面的优势和局限性。

Jan, 2024