Omnivore: 许多视觉模式的单个模型

CVPRJan, 2022

Omnivore: A Single Model for Many Visual Modalities

Rohit Girdhar, Mannat Singh, Nikhila Ravi, Laurens van der Maaten, Armand Joulin...

TL;DR该研究提出了一种基于 Transformer 的 'Omnivore' 模型，使用相同的模型参数在图像、视频、单视角 3D 数据上进行多模态分类，达到与性能同等或更好的效果，并自然地实现了跨模态识别。

Abstract

Prior work has studied different visual modalities in isolation and developed separate architectures for recognition of images, videos, and 3D data. Instead, in this paper, we propose a single model which excels at classifying images, videos, and single-view 3D data using exactly the same model parameters. Our 'Omnivore' model leverages the flexibility of

omnivore model transformer-based architectures multi-modal classification visual recognition cross-modal recognition

发现论文，激发创造

OmniMAE：图像和视频单模型遮蔽预训练

使用遮盖自编码器训练简单的 Vision Transformer，能够在多个视觉模态下获得与单一模态相当或更好的视觉表示，而只需使用单一的预训练模型，大大简化架构并加快训练速度。

Jun, 2022

OmniVL: 图像 - 语言和视频 - 语言任务的基础模型

OmniVL 提出了一种新的基础模型，它通过使用一种通用架构来支持图像语言和视频语言任务，采用了一种统一的基于 Transformer 的视觉编码器，以此来实现联合图像语言和视频语言的预训练，并展示了这种范式的好处，并且这种模型能够同时支持视觉任务，跨模态任务和多模态理解。

Sep, 2022

OmniVec：跨模态共享学习的鲁棒表示学习

学习基于任务的方法共享模态的共同之处，共同架构多任务多模态的网络，使得跨模态任务的联合训练能够实现信息共享并获得最先进的结果。

Nov, 2023

OmniNet: 多模态多任务学习的统一架构

本文介绍了一种名为 OmniNet 的神经网络框架，使用 Transformer、Spatio-temporal Cache 和自我注意机制来支持多模态学习和异步多任务学习，并演示了训练多个任务的模型在保持性能的前提下大幅度压缩的能力。

Jul, 2019

全源网络监督学习用于视频识别

OmniSource 是一个使用多种数据源和格式进行联合训练的框架，能够在没有人类标记的情况下从网上抓取 3.5M 的图片和 800K 分钟的视频，提高了在视频识别领域的表现。

Mar, 2020

一比多注意力：可扩展多模态集成

提出了一种新颖的领域中性注意机制，称为 One-Versus-Others（OvO）注意力，可在不降低准确性的情况下降低计算复杂度，并显示与流行的融合技术相比具有更高的性能。

Jul, 2023

开放词汇物体检测的多模式分类器

本文旨在进行无遮挡多类目标检测的研究，探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式，研究者通过采用大型语言模型来生成信息化的语言描述，基于图像样例提供了视觉聚合器，并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明，本文提出的基于文本的分类器优于之前 OVOD 方案，基于视觉的分类器表现与文本分类器表现相当，而使用多模态分类器比任一模态更好。

Jun, 2023

OneCAD：多模态学习用于所有图像数据集的一个分类器

本文提出了一种名为 OneCAD 的框架，通过 Multimodal learning 和 Mask-Image-Modeling 技术，用于训练和推理 Transformer 模型，使得模型架构不再与数据集中的类别数相关，并在 MNIST、CIFAR10、CIFAR100 和 COVIDx 等数据集上给出了初步结果。

May, 2023

一种高效的通用模块化视觉模型，通过多任务异构训练实现

我们提出了一种通用视觉模型，采用集成式的训练方式，使其可同时进行多任务，具有较强的泛化能力和模块化特性，并可在保证较小的训练参数、模型参数和计算量的同时，灵活地满足各种下游任务的需求，且适用于不断学习而无需遗忘的情境。

Jun, 2023

学习所有模型的一种模型

本研究旨在通过建立一个深度学习模型，同时训练图像分类、多语种翻译、图片描述生成、语音识别以及英文解析等多个任务，并在各个任务上都达到良好的结果。该模型特别之处在于将多个计算块集成到架构中，如卷积层、注意力机制和稀疏门控层等，每个计算块都对一部分任务至关重要，但即使对于不是关键任务的块，也不会影响其它任务的表现。同时，该研究还发现，少样本的任务集成到多个任务进行训练将会有较大提升。

Jun, 2017