Jun, 2024

走向全面的语言-视频表示:语言模型增强的MSR-Video到文本数据集

TL;DR通过自动增强语言-视频数据集和多方位视频字幕生成方法,提高语言-视频表示能力,并通过多模态检索模型验证其有效性。