文本视频双编码检索

Sep, 2020

Hybrid Space Learning for Language-based Video Retrieval

Jianfeng Dong, Xirong Li, Chaoxi Xu, Gang Yang, Xun Wang

TL;DR本文提出了一种新的视频检索方法，采用双重深度编码网络进行多级编码，将视频和查询作为两种模态编码为向量，同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习，经实验证明了方法的可行性。

Abstract

This paper attacks the challenging problem of video retrieval by text. In such a retrieval paradigm, an end user searches for unlabeled videos by ad-hoc queries described exclusively in the form of a natural-language sentence, with no visual example provided. Given videos as sequences

发现论文，激发创造

Word2VisualVec: 利用视觉特征预测图像和视频对句子的匹配

本研究旨在寻找最佳描述图像或视频内容的语句，通过生成句向量和多层感知机，构建了一个名为Word2VisualVec的深度神经网络体系结构来实现针对图像或视频与句子的匹配。该体系结构在四个复杂的图像和视频基准上的实验测试中表现出显着的现实结果。

Apr, 2016

使用网络图像搜索学习视频和句子的联合表示

该研究旨在基于自然语言查询进行视频检索，并采用嵌入模型进行检索任务的训练，试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧，最终在视频和句子检索任务中实现了明显的改进，并取得了与当前最先进技术相媲美的描述生成性能。

Aug, 2016

零样例视频检索的双重编码

这篇论文提出了一种新的方案，采用双重深度编码网络，将视频和查询编码成强大的密集表示，并在零样本视频检索的三个基准测试中实现了最新的成果。

Sep, 2018

复杂查询视频检索的树增强交叉模态编码

本文提出了一种基于Tree-augmented Cross-modal Encoding的方法，用于结合学习查询的语言结构和视频的时间特征进行视频检索，以实现更好的视频检索性能。

Jul, 2020

SEA: 用文本查询进行视频检索的句子编码器组合

本研究提出了一种名为 Sentence Encoder Assembly 的新方法，通过多空间多损失学习实现语句编码器的有效利用和文本-视频匹配，并在四个基准测试中表现出优于当前最先进技术的性能。

Nov, 2020

快与慢的思考：利用Transformer进行高效的文本-图像检索

本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索，并将两种方法相结合，提高了检索准确性并确保了可扩展性，同时还引入了新的细粒度跨注意力架构，并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型，并在Flickr30K图像数据集和VATEX视频数据集上验证了该方法。

Mar, 2021

凝固的时间：一种用于端到端检索的联合视频和图像编码器

本研究目标是视频文本检索-特别是一种联合嵌入，可以实现高效的文本到视频检索。作者们提出了一种端到端可训练的模型，旨在利用大规模的图像和视频字幕数据集。该模型是近期 ViT 和 Timesformer 框架的改进扩展，包括时间和空间方面的注意力机制。通过训练WebVid-2M数据集，作者们表明这种方法在标准下游的视频检索基准测试中取得了最先进的结果。

Apr, 2021

CLIP2Video: 通过Image CLIP掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

所有组合都相等吗？使用多空间学习将文本和视觉特征结合以进行基于文本的视频检索

本文旨在解决跨模态视频检索问题，具体聚焦于文本到视频的检索，并探讨将多种不同的文本和视觉特征最佳组合以生成多个联合特征空间的方法。通过多空间学习过程训练网络结构，引入额外的softmax运算来修正推断的查询-视频相似性，并在三个大规模数据集上进行实验验证，以记录所提出网络的表现。

Nov, 2022

统一潜在和词典表示以实现有效的视频文本检索

该研究提出了UNIFY框架，通过学习词库表示来捕捉细粒度语义概念，并结合潜在表示和词库表示的优势进行视频文本检索。实验证明，UNIFY框架大大优于先前的视频文本检索方法，在MSR-VTT和DiDeMo上分别提高了4.8%和8.2%的Recall@1。

Feb, 2024