Jul, 2023
InternVid:大规模视频文本数据集,用于多模式理解和生成
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation
TL;DR本文介绍了InternVid,一个大规模的以视频为中心的多模态数据集,旨在学习强大且可转移的视频-文本编码,在多模态理解和生成方面进行研究。我们自动构建了这个高质量的视频-文本数据集,并使用大型语言模型,展示了其在学习大规模视频-语言编码中的效力。