May, 2024

CLIP4Clip 视频文本检索中的激活和聚合设计改进的实证研究

TL;DR通过重新思考广泛使用的平均池化操作在帧特征聚合中固有的限制,并研究激励和聚合设计在生成具有区分性视频表示时的适应性,我们提出了一种新颖的激励和聚合设计。我们将这些模块评估在 MSR-VTT、ActivityNet 和 DiDeMo 的三个基准数据集上,实现了 MSR-VTT (43.9 R@1)、ActivityNet (44.1 R@1) 和 DiDeMo (31.0 R@1) 的结果,相对于 CLIP4Clip 的结果有 +1.2% (+0.5%)、+4.5% (+1.9%) 和 +9.5% (+2.7%) 的绝对和相对改进,证明了我们提出的激励和聚合设计的优越性。我们希望我们的工作可以作为帧特征聚合的替代方法,并促进未来的研究。