文本-视频检索的解耦表征学习

Mar, 2022

Disentangled Representation Learning for Text-Video Retrieval

Qiang Wang, Yanhao Zhang, Yun Zheng, Pan Pan, Xian-Sheng Hua

TL;DR本文针对文本-视频检索中交叉模态交互问题进行了研究，并提出了一种基于分离框架的、具有序列和分级表示的模型来优化模型性能，通过在各类基准测试上验证表明，该模型取得了较好的效果

Abstract

Cross-modality interaction is a critical component in text-video retrieval (TVR), yet there has been little examination of how different influencing factors for computing interaction affect performance. This paper first studies the →

发现论文，激发创造

复杂查询视频检索的树增强交叉模态编码

本文提出了一种基于Tree-augmented Cross-modal Encoding的方法，用于结合学习查询的语言结构和视频的时间特征进行视频检索，以实现更好的视频检索性能。

Jul, 2020

基于远程监督的检索式解耦

本文提出了一种基于语言远程监督的检索式分离框架，称为Vocabulary Disentanglement Retrieval~(VDR)，其依赖于生物编码器架构并具有解缠头，经过与其他基线方法的比较，VDR在大多数任务中都表现优异，并提高了可解释性和效率。

Dec, 2022

利用解耦概念化和集合对齐进行文本-视频检索

本研究提出了一种名为Disentangled Conceptualization and Set-to-set Alignment (DiCoSA) 的跨模态任务解决方法，可以将视觉实体与自然语言描述对齐，采用多个与语义概念相关的潜在因素来划分粗特征进行概念化，使用自适应的池化方法来聚合语义概念以解决部分匹配，并通过在少量维度上独立编码概念确保细粒度交互，从而实现高效和精细的交互。在多个数据集上的实验表明，该方法优于现有的最先进方法。

May, 2023

Prompt Switch: 高效的CLIP适应文本-视频检索

该研究论文介绍了一种在文本-视频检索中学习视频语义表示的方法，通过将一个空间-时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD和LSMDC）的最先进性能。

Aug, 2023

高效且有效的文本到视频检索:基于粗粒度到细粒度的视觉表征学习

通过多粒度视觉特征学习和二阶段检索体系结构，本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法，同时在训练阶段采用了参数无关的文本门控交互块和额外的Pearson约束来优化跨模态表示学习，从而实现了与当前最先进方法相媲美的性能，且速度快近50倍。

Jan, 2024

多模式超图网络的文本视频检索

我们提出了一种基于分块匹配的文本-视频检索方法，通过构建多模态超图和引入变分推断，实现在高阶语义空间中对文本和视频的复杂多元交互进行建模，进而提高检索性能。

Jan, 2024

统一潜在和词典表示以实现有效的视频文本检索

该研究提出了UNIFY框架，通过学习词库表示来捕捉细粒度语义概念，并结合潜在表示和词库表示的优势进行视频文本检索。实验证明，UNIFY框架大大优于先前的视频文本检索方法，在MSR-VTT和DiDeMo上分别提高了4.8%和8.2%的Recall@1。

Feb, 2024

全局-局部语义一致学习的文本-视频检索

通过提出 Global-Local 语义一致性学习方法，该研究利用文本-视频预训练模型，实现在文本-视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐，并引入一致性损失和多样性损失，达到概念对齐和生成更有区分性的概念的目的。实验结果表明，该方法在多个基准测试中具有优越的性能和高效率。

May, 2024

TokenBinder：基于一对多对齐范式的文本视频检索

本研究解决了文本视频检索中常见的一对一对齐方法难以识别候选视频间细微差异的问题。提出的TokenBinder框架采用创新的二阶段一对多对齐方法，通过焦点融合网络动态对齐和比较多视频特征，从而捕捉更微妙的语境变化。实验证明，该方法在多个基准数据集上显著优于现有的最佳方法，展现了其在弥补信息差距方面的有效性。

Sep, 2024

将1对N关系分解为N个1对1关系的文本视频检索研究

本文解决了文本视频检索(TVR)中视频与文本模态之间固有差异导致匹配不准确的问题。提出了一个新框架TV-ProxyNet，通过将传统的1对N关系转变为N个1对1关系，提高了查询的精度与覆盖范围。实验结果表明，该方法在MSRVTT和ActivityNet Captions上达到了最先进的表现，验证了其在语义映射和减少错误倾向方面的有效性。

Oct, 2024