利用显式高层语义提升视频文本检索

Aug, 2022

利用显式高层语义提升视频文本检索

Boosting Video-Text Retrieval with Explicit High-Level Semantics

Haoran Wang, Di Xu, Dongliang He, Fu Li, Zhong Ji...

TL;DR本文提出了一种名为 HiSE 的视觉语言对齐模型，通过明确的高层语义信息来提高跨模态表示，结合图形推理技术来促进全局和离散高级语义之间的交互，通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明，我们的方法在 VTR 上实现了优于现有方法的性能表现。

Abstract

video-text retrieval (VTR) is an attractive yet challenging task for multi-modal understanding, which aims to search for relevant video (text) given a query (video). Existing methods typically employ completely heterogeneous visual-textual information to align video and text, whilst la

发现论文，激发创造

分层图推理的细粒度视频文本检索

提出一种基于Hierarchical Graph Reasoning (HGR)的模型，将video-text matching分解成全局到局部的语义层次;通过基于注意力的图推理生成层次化的文本嵌入，进而引导学习多样化和分层的视频表示，并通过整合不同的video-text层次的匹配来捕获全局和局部细节，从而实现视频和文本之间的交叉检索。

Mar, 2020

利用视觉语义推理进行视频-文本检索

为了提高视频检索的性能，我们提出了一种名为ViSERN的可视化语义增强的推理网络，该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征，并聚合这些特征以形成帧级特征，以求衡量视频和文本之间的相似性。

Jun, 2020

HANet: 视频文本检索的分层对齐网络

本文提出了一种Hierarchical Alignment Network框架，通过把视频和文本分解成三个层次，即事件-动作-实体水平，并在个体-局部-全局层次上构建层次表示，捕捉视频和文本之间的从精细到粗略的对应关系，从而最大化利用三个语义层次的互补信息，以实现视频文本检索和匹配任务的高效和精度。实验结果表明，所提出的框架在两个公共数据集上优于其他最先进的方法，证明了层次表示和匹配的有效性。

Jul, 2021

基于阅读策略的视觉表征学习用于文本至视频检索

本文主攻文本到视频检索任务中的视频表示学习，在此基础上提出了一种受人类阅读策略启发的视觉表征学习方法，经实验证明，在三个数据集上取得了最新的最优性能。

Jan, 2022

迈向平衡对齐：视频时刻检索的模态增强语义建模

通过提升视频模态和文本模态的特征，Modal-Enhanced Semantic Modeling（MESM）框架在视频短片检索中实现了更平衡的对齐，填补了形式上不平衡的模态差距。实验证明该框架在多个基准测试上取得了显著的泛化能力和最佳效果。

Dec, 2023

多模式超图网络的文本视频检索

我们提出了一种基于分块匹配的文本-视频检索方法，通过构建多模态超图和引入变分推断，实现在高阶语义空间中对文本和视频的复杂多元交互进行建模，进而提高检索性能。

Jan, 2024

SHE-Net：语法层次增强的文本-视频检索

本文介绍了一种名为SHE-Net的新型语法层次增强文本-视频检索方法，通过利用文本的语义和语法层次，从两个方面弥合模态差距，并在四个公共文本-视频检索数据集上验证了该方法的优势。

Apr, 2024

全局-局部语义一致学习的文本-视频检索

通过提出 Global-Local 语义一致性学习方法，该研究利用文本-视频预训练模型，实现在文本-视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐，并引入一致性损失和多样性损失，达到概念对齐和生成更有区分性的概念的目的。实验结果表明，该方法在多个基准测试中具有优越的性能和高效率。

May, 2024

走向全面的语言-视频表示：语言模型增强的MSR-Video到文本数据集

通过自动增强语言-视频数据集和多方位视频字幕生成方法，提高语言-视频表示能力，并通过多模态检索模型验证其有效性。

Jun, 2024

TokenBinder：基于一对多对齐范式的文本视频检索

本研究解决了文本视频检索中常见的一对一对齐方法难以识别候选视频间细微差异的问题。提出的TokenBinder框架采用创新的二阶段一对多对齐方法，通过焦点融合网络动态对齐和比较多视频特征，从而捕捉更微妙的语境变化。实验证明，该方法在多个基准数据集上显著优于现有的最佳方法，展现了其在弥补信息差距方面的有效性。

Sep, 2024