学习从图像描述到视频检索

Apr, 2024

Learning text-to-video retrieval from image captioning

Lucas Ventura, Cordelia Schmid, Gül Varol

TL;DR我们提出了一种协议来研究使用未标注视频进行文本到视频检索训练，在这种协议下，我们不假设对任何视频有标签的访问，即没有对应用真实字幕的视频集的访问权限；但我们可以通过文本形式访问有标签的图片。使用图像专家模型是一个现实的场景，因为注释图像比昂贵的视频标注方案更便宜且可扩展。最近，零样本学习的图像专家，如CLIP已经为视频理解任务建立了强大的基准线。在本文中，我们利用这一进展，实例化两种类型的图像专家模型：文本到图像检索模型用于提供初始骨架，以及图像字幕模型用于向未标注视频提供监督信号。我们展示了通过使用图像字幕自动标记视频帧，可以进行文本到视频检索训练。这个过程可以在没有手动标注成本的情况下适应目标领域的特征，进而在文本到视频检索任务中胜过强大的零样本学习基准线CLIP。在训练过程中，我们从多个最佳匹配视觉内容的视频帧中采样字幕，并通过对每个字幕的相关性对帧表示进行时间汇集。我们进行了广泛的消融实验来提供深入见解，并通过在三个标准数据集（ActivityNet、MSR-VTT和MSVD）上胜过CLIP的零样本学习基准线来证明这个简单框架的有效性。

Abstract

We describe a protocol to study text-to-video retrieval training with unlabeled videos, where we assume (i) no access to labels for any videos, i.e., no access to the set of ground-truth captions, but (ii) access