T2VLAD：文本-视频检索的全局-局部序列对齐

Apr, 2021

T2VLAD：文本-视频检索的全局-局部序列对齐

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

Xiaohan Wang, Linchao Zhu, Yi Yang

TL;DR本文主要设计了一种高效的全局-局部对齐方法，在共享的语义中心集合中，自适应地汇聚多模式视频序列和文本特征，并计算相同中心内的视频特征与文本特征之间的局部交叉模态相似性，从而实现了细致的局部比较，同时降低了交互成本。此外，还提出了一种全局对齐方法，并在三个标准的文本-视频检索基准测试中取得了一致的改进和领先的效果。

Abstract

text-video retrieval is a challenging task that aims to search relevant video contents based on natural language descriptions. The key to this problem is to measure text-video similarities in a joint embedding space. However, most existing methods only consider the global →

发现论文，激发创造

CLIP2Video: 通过Image CLIP掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

HANet: 视频文本检索的分层对齐网络

本文提出了一种Hierarchical Alignment Network框架，通过把视频和文本分解成三个层次，即事件-动作-实体水平，并在个体-局部-全局层次上构建层次表示，捕捉视频和文本之间的从精细到粗略的对应关系，从而最大化利用三个语义层次的互补信息，以实现视频文本检索和匹配任务的高效和精度。实验结果表明，所提出的框架在两个公共数据集上优于其他最先进的方法，证明了层次表示和匹配的有效性。

Jul, 2021

跨媒体语言-视频注意力X-Pool在文本-视频检索中的应用

提出了一种名为 X-Pool 的跨模态注意力模型，用于在文本和视频之间进行推理，从而提取重要的视觉线索。通过使用一个标度点乘的注意力机制，允许文本关注其最语义相似的帧，并生成基于文本的帧的注意力权重的聚合视频表示。在 MSR-VTT、MSVD 和 LSMDC 三个基准数据集上进行评估，实现了相对提高 Recall@1 高达 12% 的新的最佳效果。

Mar, 2022

利用显式高层语义提升视频文本检索

本文提出了一种名为 HiSE 的视觉语言对齐模型，通过明确的高层语义信息来提高跨模态表示，结合图形推理技术来促进全局和离散高级语义之间的交互，通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明，我们的方法在 VTR 上实现了优于现有方法的性能表现。

Aug, 2022

标签对齐前的多模式标签集成视频文本检索

本文提出了一种用于视频-文本检索的 TABLE（标记前对齐）网络，该网络通过标记将多模态信息显式地集成在一起，并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下，使用预训练的多模态专家从多模态中提取信息。实验表明，TABLE模型在MSR-VTT、MSVD、LSMDC和DiDeMo等多个视频-文本检索基准中表现出了最先进的性能。

Jan, 2023

视频文本检索的统一粗细对齐

通过联合考虑不同粒度的跨模态相似性，我们提出了一种统一的多粒度对齐模型UCoFiA，显著优于以前的基于CLIP方法，在多个视频-文本检索基准上表现出了2.4％，1.4％和1.3％的文本到视频检索R@1改进。

Sep, 2023

迈向平衡对齐：视频时刻检索的模态增强语义建模

通过提升视频模态和文本模态的特征，Modal-Enhanced Semantic Modeling（MESM）框架在视频短片检索中实现了更平衡的对齐，填补了形式上不平衡的模态差距。实验证明该框架在多个基准测试上取得了显著的泛化能力和最佳效果。

Dec, 2023

全局-局部语义一致学习的文本-视频检索

通过提出 Global-Local 语义一致性学习方法，该研究利用文本-视频预训练模型，实现在文本-视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐，并引入一致性损失和多样性损失，达到概念对齐和生成更有区分性的概念的目的。实验结果表明，该方法在多个基准测试中具有优越的性能和高效率。

May, 2024

T2VIndexer：一种高效文本-视频检索的生成视频索引器

本研究解决了现有文本-视频检索方法中由于候选视频数量增加而导致的显著时间成本问题。提出的T2VIndexer模型通过生成视频标识符，以常数时间复杂度直接检索候选视频，从而提升检索效率，并在多个标准数据集上实现了优于现有最先进模型的检索性能。

Aug, 2024

TokenBinder：基于一对多对齐范式的文本视频检索

本研究解决了文本视频检索中常见的一对一对齐方法难以识别候选视频间细微差异的问题。提出的TokenBinder框架采用创新的二阶段一对多对齐方法，通过焦点融合网络动态对齐和比较多视频特征，从而捕捉更微妙的语境变化。实验证明，该方法在多个基准数据集上显著优于现有的最佳方法，展现了其在弥补信息差距方面的有效性。

Sep, 2024