Jan, 2024

CBVS:面向现实世界短视频搜索场景的大规模中文图文基准

TL;DR利用大规模图像文本预训练的视觉语言模型在图像检索等任务中表现出优异性能;为了填补短视频封面数据的缺失,我们建立了首个面向中文短视频搜索场景的大规模封面文本基准测试集,并提出了 UniCLIP 方法,通过训练时的封面文本引导,但推理时不依赖封面文本来集成语义;在经过大规模验证数据集 CBVS-20K 的深度评估中,我们的提案 UniCLIP 表现出了出色的性能,并在腾讯在线视频搜索系统上部署,取得了显著的增益。