使用 CLIP 的视频检索简明框架

Feb, 2021

A Straightforward Framework For Video Retrieval Using CLIP

Jesús Andrés Portillo-Quintero, José Carlos Ortiz-Bayliss, Hugo Terashima-Marín

TL;DR本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示，而不需要用户注释，这一技术扩展应用于视频检索中取得了最先进的结果。

Abstract

video retrieval is a challenging task where a text query is matched to a video or vice versa. Most of the existing approaches for addressing such a problem rely on annotations made by the users. Although simple, this approach is not always feasible in practice. In this work, we explore

video retrieval language-image model clip video representation state-of-the-art results

发现论文，激发创造

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

CLIP4Clip: CLIP 耦合视频检索的实证研究

本研究提出了 CLIP4Clip 模型，将 CLIP 模型的知识以端到端的方式迁移到视频 - 文本检索上，从多个角度对其表现进行实验证明其在各种数据集上比其他模型表现更好，同时释放其代码供学术界使用。

Apr, 2021

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

CLIP-Hitchhiker 的长视频检索指南

本文旨在将图像 - 文本模型应用于长视频检索，并通过查询打分的帧嵌入的加权平均作为时间建模有效基线，提出一种在长视频检索基准测试中表现卓越的改善方法。

May, 2022

高效且有效的文本到视频检索：基于粗粒度到细粒度的视觉表征学习

通过多粒度视觉特征学习和二阶段检索体系结构，本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法，同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习，从而实现了与当前最先进方法相媲美的性能，且速度快近 50 倍。

Jan, 2024

视频编辑对视频检索的应用

通过使用单个时间戳作为廉价的注释来源，本研究提出了一种视频文本检索方法，其中初始视频片段边界从时间戳启动，并通过视频片段编辑方法进行改进，以提高检索性能。实验结果表明，通过编辑视频片段可以持续改善检索性能。

Feb, 2024

使用自然语言描述实现提取式视频剪辑定位

该文章提出了一种新的、能够利用文本和视频间的交互，预测起始和结束帧的提取方法，以避免检索和重新排序多个候选段落。使用递归网络将两种模态编码成共同表示，该方法在多项实验和去除分析中表现显著，比现有技术提升了性能。

Apr, 2019

多层次语言和视觉融合的文本到视频检索

本文提出了一种多层级的模型，早期并更紧密地集成了视觉和语言特性，用于解决从未剪辑的视频中基于文本的活动检索问题，其中包括注入文本特性以加速处理和提高性能，以及利用视觉特征在循环神经网络中模拟查询句子的单词级处理以学习细粒度的相似性度量，同时采用多任务损失函数。该方法在 Charades-STA 和 ActivityNet Captions 两个具有挑战性的基准测试中表现出较高效果。

Apr, 2018

全局 - 局部语义一致学习的文本 - 视频检索

通过提出 Global-Local 语义一致性学习方法，该研究利用文本 - 视频预训练模型，实现在文本 - 视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐，并引入一致性损失和多样性损失，达到概念对齐和生成更有区分性的概念的目的。实验结果表明，该方法在多个基准测试中具有优越的性能和高效率。

May, 2024