提出一种基于 Hierarchical Graph Reasoning (HGR) 的模型,将 video-text matching 分解成全局到局部的语义层次;通过基于注意力的图推理生成层次化的文本嵌入,进而引导学习多样化和分层的视频表示,并通过整合不同的 video-text 层次的匹配来捕获全局和局部细节,从而实现视频和文本之间的交叉检索。
Mar, 2020
本文提出了一种将视频建模为条件分层图层次结构的方法,通过组合不同层次的视觉元素来对齐语言查询中的多粒度语义概念,该方法超越了先前方法的表现,且对于不同类型的问题也具有更好的泛化能力。
Dec, 2021
本文提出了一种名为 HAMMER 的 HierArchical Multi-Modal EncodeR 模型,通过在粗略的片段级别和细粒度的帧级别编码视频,从多个子任务中提取不同尺度的信息,从而解决了在未处理和未分段的视频中定位未定义段的挑战。实验结果表明,我们的方法优于以前的方法和强基线,是此任务的新的 state-of-the-art。
Nov, 2020
我们提出了一种基于分块匹配的文本 - 视频检索方法,通过构建多模态超图和引入变分推断,实现在高阶语义空间中对文本和视频的复杂多元交互进行建模,进而提高检索性能。
Jan, 2024
本文提出了一种名为 HiSE 的视觉语言对齐模型,通过明确的高层语义信息来提高跨模态表示,结合图形推理技术来促进全局和离散高级语义之间的交互,通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明,我们的方法在 VTR 上实现了优于现有方法的性能表现。
Aug, 2022
本文提出了一种基于文档和相关视频的新型多模态摘要任务,并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型,旨在同时处理文本和视频摘要。实验结果表明,该模型有利于多模态摘要且优于现有方法,同时构建了一个新的文档和视频数据集作为未来研究的资源。
Sep, 2020
本文提出了一种多模态视频分割方法,通过语言引导的特征融合模块和多模态对齐损失函数,将视觉外观、运动信息和语言特征融合,实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明,该方法与现有方法相比具有更好的性能和泛化能力。
Apr, 2022
通过对视频的各种形式进行联合分析(包括视频帧、音频和任何附带文本),我们提出了一种学习紧凑的多模态特征表示形式的方法,证明了多模态表示是互补的,可以在提高许多应用性能中发挥关键作用。
Apr, 2020
本文提出了一种新的视频检索方法,采用双重深度编码网络进行多级编码,将视频和查询作为两种模态编码为向量,同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习,经实验证明了方法的可行性。
本文介绍了一种名为 SHE-Net 的新型语法层次增强文本 - 视频检索方法,通过利用文本的语义和语法层次,从两个方面弥合模态差距,并在四个公共文本 - 视频检索数据集上验证了该方法的优势。
Apr, 2024