Jul, 2023

冻结图像编码器的细粒度文本 - 视频检索

TL;DR提出了 CrossTVR,一个两阶段的文本视频检索架构。第一阶段利用现有的文本 - 视频检索方法进行候选选择,第二阶段提出了一个新颖的解耦视频文本交叉注意力模块,以捕捉时空维度中细粒度的多模态信息。通过在细粒度检索中采用冻结的 CLIP 模型策略,可以扩展到更大的预训练视觉模型,如 ViT-G,从而提高检索性能。对文本视频检索数据集进行的实验证明了我们提出的 CrossTVR 相较于最先进的方法的有效性和可扩展性。