Sep, 2022
CLIP-ViP:基于预训练图文模型的视频语言表示对齐
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment
TL;DR通过对数据规模和语言源域差异的研究,本文提出了一种基于CLIP的OmniSource跨模态学习方法,称为CLIP-ViP,通过视频代理机制改进后续预训练CLIP,从而实现显著提高视频-文本检索的性能。该方法在多个数据集上均取得了SOTA结果。