Oct, 2023

通过高效的后预训练来获取视频基础模型

TL;DR我们提出了一种从图像模型中收集视频基础模型的有效框架,方法简单直观,通过随机删除输入视频补丁和屏蔽输入文本来显著提高训练效率,并强化跨模态融合的学习,该方法在多种视频语言下游任务中取得了顶尖性能,具有极高的效率,只需要 WebVid-10M 作为预训练数据,希望我们的方法能够成为常见视频基础模型的简单但强大的替代品,提供构建这些模型的有用见解,并使大型预训练模型更易于获取和持续发展。