Jun, 2023

COSA: 连接样本预训练的视觉 - 语言基础模型

TL;DR本研究提出了 COSA,一种 COncatenated SAmple 预训练视觉语言基础模型,它通过仅使用图像 - 文本语料库,联合建模视觉内容和事件级时间线索,使现有的图像 - 文本语料库转化为一种伪长篇视频 - 段落语料库,并在包括检索、字幕和问题解答在内的广泛下游任务中一致提高表现,达到了各种竞争基准的最新效果。