Aug, 2023

Prompt Switch: 高效的CLIP适应文本-视频检索

TL;DR该研究论文介绍了一种在文本-视频检索中学习视频语义表示的方法,通过将一个空间-时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD和LSMDC)的最先进性能。