Feb, 2024

Panda-70M:使用多个跨模态教师为70M视频加上字幕

TL;DR通过多模态输入构建高质量视频数据集,使用检索模型选择最佳字幕注释,名为Panda-70M,训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。