Feb, 2024
Video-LaVIT:统一的视频-语言预训练与解耦的视觉-运动词汇编
Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization
TL;DR本文介绍了一种用于视频-语言预训练的高效视频分解的方法,该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记,从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的13个多模态基准测试中,我们提出的框架表现出竞争性的性能。