Sep, 2022

OmniVL: 图像 - 语言和视频 - 语言任务的基础模型

TL;DROmniVL 提出了一种新的基础模型,它通过使用一种通用架构来支持图像语言和视频语言任务,采用了一种统一的基于 Transformer 的视觉编码器,以此来实现联合图像语言和视频语言的预训练,并展示了这种范式的好处,并且这种模型能够同时支持视觉任务,跨模态任务和多模态理解。