Omnivore: 许多视觉模式的单个模型
使用遮盖自编码器训练简单的 Vision Transformer,能够在多个视觉模态下获得与单一模态相当或更好的视觉表示,而只需使用单一的预训练模型,大大简化架构并加快训练速度。
Jun, 2022
OmniVL 提出了一种新的基础模型,它通过使用一种通用架构来支持图像语言和视频语言任务,采用了一种统一的基于 Transformer 的视觉编码器,以此来实现联合图像语言和视频语言的预训练,并展示了这种范式的好处,并且这种模型能够同时支持视觉任务,跨模态任务和多模态理解。
Sep, 2022
本文介绍了一种名为 OmniNet 的神经网络框架,使用 Transformer、Spatio-temporal Cache 和自我注意机制来支持多模态学习和异步多任务学习,并演示了训练多个任务的模型在保持性能的前提下大幅度压缩的能力。
Jul, 2019
OmniSource 是一个使用多种数据源和格式进行联合训练的框架,能够在没有人类标记的情况下从网上抓取 3.5M 的图片和 800K 分钟的视频,提高了在视频识别领域的表现。
Mar, 2020
提出了一种新颖的领域中性注意机制,称为 One-Versus-Others(OvO)注意力,可在不降低准确性的情况下降低计算复杂度,并显示与流行的融合技术相比具有更高的性能。
Jul, 2023
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前 OVOD 方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
本文提出了一种名为 OneCAD 的框架,通过 Multimodal learning 和 Mask-Image-Modeling 技术,用于训练和推理 Transformer 模型,使得模型架构不再与数据集中的类别数相关,并在 MNIST、CIFAR10、CIFAR100 和 COVIDx 等数据集上给出了初步结果。
May, 2023
我们提出了一种通用视觉模型,采用集成式的训练方式,使其可同时进行多任务,具有较强的泛化能力和模块化特性,并可在保证较小的训练参数、模型参数和计算量的同时,灵活地满足各种下游任务的需求,且适用于不断学习而无需遗忘的情境。
Jun, 2023
本研究旨在通过建立一个深度学习模型,同时训练图像分类、多语种翻译、图片描述生成、语音识别以及英文解析等多个任务,并在各个任务上都达到良好的结果。该模型特别之处在于将多个计算块集成到架构中,如卷积层、注意力机制和稀疏门控层等,每个计算块都对一部分任务至关重要,但即使对于不是关键任务的块,也不会影响其它任务的表现。同时,该研究还发现,少样本的任务集成到多个任务进行训练将会有较大提升。
Jun, 2017