Mar, 2024

InternVideo2:面向多模态视频理解的视频基础模型的扩展

TL;DR我们介绍 InternVideo2,这是一种新的视频基础模型(ViFM),在动作识别、视频文本任务和以视频为中心的对话中实现了最先进的性能。我们的方法采用渐进训练范式,统一了掩码视频令牌重建、跨模态对比学习和下一个令牌预测的不同自我或弱监督学习框架。不同的训练阶段通过不同的预训练任务引导我们的模型捕捉不同层次的结构和语义信息。在数据层面上,我们通过对视频进行语义分割和生成视频 - 音频 - 语音字幕来优先考虑时空一致性,从而提高了视频和文本之间的对齐性。我们为 InternVideo2 扩展了数据和模型规模。通过广泛的实验证明了我们的设计,并展示了在 60 多个视频和音频任务上的最先进性能。值得注意的是,我们的模型在各种与视频有关的字幕、对话和长期视频理解基准上优于其他模型,凸显了它在推理和理解长时间上下文方面的能力。代码和模型可在此 URL 获取。