Nov, 2021

VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模

TL;DRVIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器,通过设计一个新的预训练任务 Masked Visual-token Modeling(MVM)进行更好的视频建模,综合分析证明了其显式时间建模和 MVM 的有效性,取得了 5 种视频问答任务和 4 种文本到视频检索任务的最新最好性能。