Mar, 2022

一体化:探索统一的视视频 - 语言预训练

TL;DR介绍了一种基于 all-in-one Transformer 的视频 - 语言端到端模型,采用新的 token rolling 操作,实现了视频数据的时间表示方式,同时赋予模型能够处理多模态输入的能力。该模型通过 fine-tuning 能够在文本 - 视频检索、视频问答、多项选择和视觉常识推理等多个数据集上达到 state-of-the-art 的性能表现。