May, 2022

CLIP-Hitchhiker 的长视频检索指南

TL;DR本文旨在将图像 - 文本模型应用于长视频检索,并通过查询打分的帧嵌入的加权平均作为时间建模有效基线,提出一种在长视频检索基准测试中表现卓越的改善方法。