Nov, 2023
一段视频胜过万言:利用多样化字幕进行更好的长视频检索的训练和基准测试
A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval
TL;DR通过对长视频生成多样的合成标题,使用大型语言模型评估长视频检索系统的能力,并提出轻量级微调方法(基于对不同标题中信息层级的差异进行对比损失学习),在下游的段落-视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。