视频和文本的跨模态和分层建模

ECCVOct, 2018

Cross-Modal and Hierarchical Modeling of Video and Text

Bowen Zhang, Hexiang Hu, Fei Sha

TL;DR本文探讨了多模态序列数据的建模技术，提出了一种通用模型，即基于层次结构的序列嵌入模型 (HSE)，该模型将不同模态的序列数据嵌入层次语义空间中，取得了超越现有方法的结果，并在零样本动作识别和视频字幕自动生成等下游任务中取得了更好的效果。

Abstract

visual data and text data are composed of information at multiple granularities. A video can describe a complex scene that is composed of multiple clips or shots, where each depicts a semantically coherent event

visual data text data modeling techniques hierarchical sequence embedding zero-shot action recognition

发现论文，激发创造

分层图推理的细粒度视频文本检索

提出一种基于 Hierarchical Graph Reasoning (HGR) 的模型，将 video-text matching 分解成全局到局部的语义层次；通过基于注意力的图推理生成层次化的文本嵌入，进而引导学习多样化和分层的视频表示，并通过整合不同的 video-text 层次的匹配来捕获全局和局部细节，从而实现视频和文本之间的交叉检索。

Mar, 2020

利用视频作为条件图层级的多粒度问答

本文提出了一种将视频建模为条件分层图层次结构的方法，通过组合不同层次的视觉元素来对齐语言查询中的多粒度语义概念，该方法超越了先前方法的表现，且对于不同类型的问题也具有更好的泛化能力。

Dec, 2021

视频语料库中的时刻定位层级多模态编码器

本文提出了一种名为 HAMMER 的 HierArchical Multi-Modal EncodeR 模型，通过在粗略的片段级别和细粒度的帧级别编码视频，从多个子任务中提取不同尺度的信息，从而解决了在未处理和未分段的视频中定位未定义段的挑战。实验结果表明，我们的方法优于以前的方法和强基线，是此任务的新的 state-of-the-art。

Nov, 2020

多模式超图网络的文本视频检索

我们提出了一种基于分块匹配的文本 - 视频检索方法，通过构建多模态超图和引入变分推断，实现在高阶语义空间中对文本和视频的复杂多元交互进行建模，进而提高检索性能。

Jan, 2024

利用显式高层语义提升视频文本检索

本文提出了一种名为 HiSE 的视觉语言对齐模型，通过明确的高层语义信息来提高跨模态表示，结合图形推理技术来促进全局和离散高级语义之间的交互，通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明，我们的方法在 VTR 上实现了优于现有方法的性能表现。

Aug, 2022

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020

基于多模态特征的文本视频分割运动建模

本文提出了一种多模态视频分割方法，通过语言引导的特征融合模块和多模态对齐损失函数，将视觉外观、运动信息和语言特征融合，实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明，该方法与现有方法相比具有更好的性能和泛化能力。

Apr, 2022

视频排序的深度多模态特征编码

通过对视频的各种形式进行联合分析（包括视频帧、音频和任何附带文本），我们提出了一种学习紧凑的多模态特征表示形式的方法，证明了多模态表示是互补的，可以在提高许多应用性能中发挥关键作用。

Apr, 2020

文本视频双编码检索

本文提出了一种新的视频检索方法，采用双重深度编码网络进行多级编码，将视频和查询作为两种模态编码为向量，同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习，经实验证明了方法的可行性。

Sep, 2020

SHE-Net：语法层次增强的文本 - 视频检索

本文介绍了一种名为 SHE-Net 的新型语法层次增强文本 - 视频检索方法，通过利用文本的语义和语法层次，从两个方面弥合模态差距，并在四个公共文本 - 视频检索数据集上验证了该方法的优势。

Apr, 2024