冻结图像编码器的细粒度文本 - 视频检索

Jul, 2023

冻结图像编码器的细粒度文本 - 视频检索

Fine-grained Text-Video Retrieval with Frozen Image Encoders

Zuozhuo Dai, Fangtao Shao, Qingkun Su, Zilong Dong, Siyu Zhu

TL;DR提出了 CrossTVR，一个两阶段的文本视频检索架构。第一阶段利用现有的文本 - 视频检索方法进行候选选择，第二阶段提出了一个新颖的解耦视频文本交叉注意力模块，以捕捉时空维度中细粒度的多模态信息。通过在细粒度检索中采用冻结的 CLIP 模型策略，可以扩展到更大的预训练视觉模型，如 ViT-G，从而提高检索性能。对文本视频检索数据集进行的实验证明了我们提出的 CrossTVR 相较于最先进的方法的有效性和可扩展性。

Abstract

State-of-the-art text-video retrieval (TVR) methods typically utilize CLIP and cosine similarity for efficient retrieval. Meanwhile, cross attention methods, which employ a transformer decoder to compute attention between each text query and all frames in a video, offer a more comprehe

text-video retrieval cross attention methods fine-grained spatial information decoupled video text cross attention module frozen clip model strategy

发现论文，激发创造

高效且有效的文本到视频检索：基于粗粒度到细粒度的视觉表征学习

通过多粒度视觉特征学习和二阶段检索体系结构，本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法，同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习，从而实现了与当前最先进方法相媲美的性能，且速度快近 50 倍。

Jan, 2024

快与慢的思考：利用 Transformer 进行高效的文本 - 图像检索

本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索，并将两种方法相结合，提高了检索准确性并确保了可扩展性，同时还引入了新的细粒度跨注意力架构，并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型，并在 Flickr30K 图像数据集和 VATEX 视频数据集上验证了该方法。

Mar, 2021

TeachCLIP: 高效文本到视频检索的多粒度教学

通过多层次教学，利用具有更高性能但计算负荷较大的模型，如 X-CLIP、TS2-Net 和 X-Pool，以及引入注意力框架特征聚合（AFA）块来提高学生网络的学习能力，以实现高效的文本到视频检索。实验结果表明所提出的方法是可行的。

Aug, 2023

检索增强对比视觉 - 文本模型

本论文提出了 RECO 模型，该模型通过外部记忆检索获取精细化知识，应用于现有视觉文本模型中，并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。

Jun, 2023

凝固的时间：一种用于端到端检索的联合视频和图像编码器

本研究目标是视频文本检索 - 特别是一种联合嵌入，可以实现高效的文本到视频检索。作者们提出了一种端到端可训练的模型，旨在利用大规模的图像和视频字幕数据集。该模型是近期 ViT 和 Timesformer 框架的改进扩展，包括时间和空间方面的注意力机制。通过训练 WebVid-2M 数据集，作者们表明这种方法在标准下游的视频检索基准测试中取得了最先进的结果。

Apr, 2021

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

使用 Transformer 编码器进行跨模态检索的细粒度视觉文本对齐

通过词区匹配实现图像 - 句子匹配，本文提出了一种名为 TERAN 的新方法，在图像和句子的不同组件之间执行精细匹配，从而实现了跨模式检索，并在 MS-COCO 和 Flickr30k 数据集上获得了最先进的结果。

Aug, 2020

快速检索、智能重新排名：协作和联合方法改进跨模态检索

本文提出了一种基于 fine-tuning 的框架，将任何预先训练的文本 - 图像多模态模型转换为高效的检索模型，并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器，实现更准确、更高效的跨模态检索。

Mar, 2021

视频文本检索的统一粗细对齐

通过联合考虑不同粒度的跨模态相似性，我们提出了一种统一的多粒度对齐模型 UCoFiA，显著优于以前的基于 CLIP 方法，在多个视频 - 文本检索基准上表现出了 2.4％，1.4％和 1.3％的文本到视频检索 R@1 改进。

Sep, 2023

X-CLIP: 视频文本检索的端到端多粒度对比学习

本篇论文提出了一种名为 X-CLIP 的多层次对比模型，通过 Attention Over Similarity Matrix 模块将多粒度相似度矩阵聚合到实例级别，大幅度提高了视频 - 文本检索的性能表现。在五个常用的视频文本检索数据集上，X-CLIP 相较于之前最先进的模型提升了 6.3％至 11.1％，证明了多层次对比模型和 AOSM 模块的优越性。

Jul, 2022