Mar, 2022

一体化:探索统一的视视频-语言预训练

TL;DR介绍了一种基于all-in-one Transformer的视频-语言端到端模型,采用新的token rolling操作,实现了视频数据的时间表示方式,同时赋予模型能够处理多模态输入的能力。该模型通过fine-tuning能够在文本-视频检索、视频问答、多项选择和视觉常识推理等多个数据集上达到state-of-the-art的性能表现。