Nov, 2023

E-ViLM: 通过语义量化分词的掩码视频建模的高效视频语言模型

TL;DR通过利用多种形式(例如视频、文本和图像)的多样性多模态数据来构建可扩展的模型,本文提出一种高效的视频 - 语言模型(E-ViLM)和掩码视频建模(MVM)模式,并辅以语义向量量化的分词器。通过简化的任务和常规的预训练模型,E-ViLM 能够从视频 - 语言语料库中学习表达性的表示,并在视频问答、文本到视频检索等广泛的视频 - 语言任务中具有很好的泛化性能,实现了明显的效率提升。