Jun, 2024

走向全面的语言 - 视频表示:语言模型增强的 MSR-Video 到文本数据集

TL;DR通过自动增强语言 - 视频数据集和多方位视频字幕生成方法,提高语言 - 视频表示能力,并通过多模态检索模型验证其有效性。