Feb, 2020
UniVL: 用于多模态理解和生成的统一视频与语言预训练模型
UniViLM: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation
TL;DR本论文提出了UniVL:一种统一的视频和语言预训练模型,旨在为多模态理解和生成任务提供强大的视频和文本表示,并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件,最终在五个下游任务上实现了最新的成果。