CLIP4Clip 视频文本检索中的激活和聚合设计改进的实证研究

May, 2024

CLIP4Clip 视频文本检索中的激活和聚合设计改进的实证研究

An Empirical Study of Excitation and Aggregation Design Adaptions in CLIP4Clip for Video-Text Retrieval

Xiaolun Jing, Genke Yang, Jian Chu

TL;DR通过重新思考广泛使用的平均池化操作在帧特征聚合中固有的限制，并研究激励和聚合设计在生成具有区分性视频表示时的适应性，我们提出了一种新颖的激励和聚合设计。我们将这些模块评估在 MSR-VTT、ActivityNet 和 DiDeMo 的三个基准数据集上，实现了 MSR-VTT (43.9 R@1)、ActivityNet (44.1 R@1) 和 DiDeMo (31.0 R@1) 的结果，相对于 CLIP4Clip 的结果有 +1.2% (+0.5%)、+4.5% (+1.9%) 和 +9.5% (+2.7%) 的绝对和相对改进，证明了我们提出的激励和聚合设计的优越性。我们希望我们的工作可以作为帧特征聚合的替代方法，并促进未来的研究。

Abstract

CLIP4Clip model transferred from the clip has been the de-factor standard to solve the video clip retrieval task from frame-level input, triggering the surge of CLIP4Clip-based models in the video-text retrieval

clip video clip retrieval frame features aggregation excitation and aggregation design discriminative video representation

发现论文，激发创造

CLIP4Clip: CLIP 耦合视频检索的实证研究

本研究提出了 CLIP4Clip 模型，将 CLIP 模型的知识以端到端的方式迁移到视频 - 文本检索上，从多个角度对其表现进行实验证明其在各种数据集上比其他模型表现更好，同时释放其代码供学术界使用。

Apr, 2021

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

CLIP-Hitchhiker 的长视频检索指南

本文旨在将图像 - 文本模型应用于长视频检索，并通过查询打分的帧嵌入的加权平均作为时间建模有效基线，提出一种在长视频检索基准测试中表现卓越的改善方法。

May, 2022

TeachCLIP: 高效文本到视频检索的多粒度教学

通过多层次教学，利用具有更高性能但计算负荷较大的模型，如 X-CLIP、TS2-Net 和 X-Pool，以及引入注意力框架特征聚合（AFA）块来提高学生网络的学习能力，以实现高效的文本到视频检索。实验结果表明所提出的方法是可行的。

Aug, 2023

高效且有效的文本到视频检索：基于粗粒度到细粒度的视觉表征学习

通过多粒度视觉特征学习和二阶段检索体系结构，本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法，同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习，从而实现了与当前最先进方法相媲美的性能，且速度快近 50 倍。

Jan, 2024

M2-CLIP: 视频动作识别的多模态多任务自适应框架

该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架，通过引入多模态适配器和多任务解码器，实现强大的监督学习性能和在零样本场景中的强大泛化能力。

Jan, 2024

使用自然语言描述实现提取式视频剪辑定位

该文章提出了一种新的、能够利用文本和视频间的交互，预测起始和结束帧的提取方法，以避免检索和重新排序多个候选段落。使用递归网络将两种模态编码成共同表示，该方法在多项实验和去除分析中表现显著，比现有技术提升了性能。

Apr, 2019

优化过的 CLIP 模型是高效的视频学习器

论文提出了一种用于显式建模时间序列的新型模块，通过视频精调 CLIP 模型，可以将图像级别的表示有效地转移到视频领域，取得了良好的实验效果。

Dec, 2022

释放 CLIP 在视频亮点检测中的潜力

通过利用多模态模型中预训练知识和创新的显著性池化技术，我们在视频亮点检测任务中通过简单微调多模态编码器达到了最先进的性能，对于 QVHighlight 基准测试而言，可获得最佳表现。

Apr, 2024

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021