TeachCLIP: 高效文本到视频检索的多粒度教学

Aug, 2023

TeachCLIP: 高效文本到视频检索的多粒度教学

TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval

Kaibin Tian, Ruixiang Zhao, Hu Hu, Runquan Xie, Fengzong Lian...

TL;DR通过多层次教学，利用具有更高性能但计算负荷较大的模型，如 X-CLIP、TS2-Net 和 X-Pool，以及引入注意力框架特征聚合（AFA）块来提高学生网络的学习能力，以实现高效的文本到视频检索。实验结果表明所提出的方法是可行的。

Abstract

For text-to-video retrieval (T2VR), which aims to retrieve unlabeled videos by ad-hoc textual queries, clip-based methods are dominating. Compared to CLIP4Clip which is efficient and compact, the state-of-the-art

text-to-video retrieval clip-based methods teachclip multi-grained teaching attentional frame-feature aggregation (afa)

发现论文，激发创造

高效且有效的文本到视频检索：基于粗粒度到细粒度的视觉表征学习

通过多粒度视觉特征学习和二阶段检索体系结构，本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法，同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习，从而实现了与当前最先进方法相媲美的性能，且速度快近 50 倍。

Jan, 2024

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

X-CLIP: 视频文本检索的端到端多粒度对比学习

本篇论文提出了一种名为 X-CLIP 的多层次对比模型，通过 Attention Over Similarity Matrix 模块将多粒度相似度矩阵聚合到实例级别，大幅度提高了视频 - 文本检索的性能表现。在五个常用的视频文本检索数据集上，X-CLIP 相较于之前最先进的模型提升了 6.3％至 11.1％，证明了多层次对比模型和 AOSM 模块的优越性。

Jul, 2022

优化过的 CLIP 模型是高效的视频学习器

论文提出了一种用于显式建模时间序列的新型模块，通过视频精调 CLIP 模型，可以将图像级别的表示有效地转移到视频领域，取得了良好的实验效果。

Dec, 2022

CLIP4Clip: CLIP 耦合视频检索的实证研究

本研究提出了 CLIP4Clip 模型，将 CLIP 模型的知识以端到端的方式迁移到视频 - 文本检索上，从多个角度对其表现进行实验证明其在各种数据集上比其他模型表现更好，同时释放其代码供学术界使用。

Apr, 2021

冻结图像编码器的细粒度文本 - 视频检索

提出了 CrossTVR，一个两阶段的文本视频检索架构。第一阶段利用现有的文本 - 视频检索方法进行候选选择，第二阶段提出了一个新颖的解耦视频文本交叉注意力模块，以捕捉时空维度中细粒度的多模态信息。通过在细粒度检索中采用冻结的 CLIP 模型策略，可以扩展到更大的预训练视觉模型，如 ViT-G，从而提高检索性能。对文本视频检索数据集进行的实验证明了我们提出的 CrossTVR 相较于最先进的方法的有效性和可扩展性。

Jul, 2023

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

FiGCLIP: 细粒度 CLIP 适应通过密集标注视频

通过基于 VidSitu 数据集的细节导向字幕和层级损失，我们改进了 contrastive language image pretraining (CLIP) 模型，提高了其对细粒度和句法的理解能力，并在不同任务中取得了稳定的改进。

Jan, 2024

视频文本检索的统一粗细对齐

通过联合考虑不同粒度的跨模态相似性，我们提出了一种统一的多粒度对齐模型 UCoFiA，显著优于以前的基于 CLIP 方法，在多个视频 - 文本检索基准上表现出了 2.4％，1.4％和 1.3％的文本到视频检索 R@1 改进。

Sep, 2023

基于 CLIP 的细粒度文本图像人员再识别

提出了一种基于 CLIP 驱动的细粒度信息挖掘框架 (CFine)，旨在为 TIReID 提供强大的多模态知识，通过细粒度信息挖掘，建立跨模态对齐，并在多个基准测试上显示了其优越的性能。

Oct, 2022