利用显式高层语义提升视频文本检索
提出一种基于Hierarchical Graph Reasoning (HGR)的模型,将video-text matching分解成全局到局部的语义层次;通过基于注意力的图推理生成层次化的文本嵌入,进而引导学习多样化和分层的视频表示,并通过整合不同的video-text层次的匹配来捕获全局和局部细节,从而实现视频和文本之间的交叉检索。
Mar, 2020
为了提高视频检索的性能,我们提出了一种名为ViSERN的可视化语义增强的推理网络,该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征,并聚合这些特征以形成帧级特征, 以求衡量视频和文本之间的相似性。
Jun, 2020
本文提出了一种Hierarchical Alignment Network框架,通过把视频和文本分解成三个层次,即事件-动作-实体水平,并在个体-局部-全局层次上构建层次表示,捕捉视频和文本之间的从精细到粗略的对应关系,从而最大化利用三个语义层次的互补信息,以实现视频文本检索和匹配任务的高效和精度。实验结果表明,所提出的框架在两个公共数据集上优于其他最先进的方法,证明了层次表示和匹配的有效性。
Jul, 2021
本文主攻文本到视频检索任务中的视频表示学习,在此基础上提出了一种受人类阅读策略启发的视觉表征学习方法,经实验证明,在三个数据集上取得了最新的最优性能。
Jan, 2022
通过提升视频模态和文本模态的特征,Modal-Enhanced Semantic Modeling(MESM)框架在视频短片检索中实现了更平衡的对齐,填补了形式上不平衡的模态差距。实验证明该框架在多个基准测试上取得了显著的泛化能力和最佳效果。
Dec, 2023
我们提出了一种基于分块匹配的文本-视频检索方法,通过构建多模态超图和引入变分推断,实现在高阶语义空间中对文本和视频的复杂多元交互进行建模,进而提高检索性能。
Jan, 2024
本文介绍了一种名为SHE-Net的新型语法层次增强文本-视频检索方法,通过利用文本的语义和语法层次,从两个方面弥合模态差距,并在四个公共文本-视频检索数据集上验证了该方法的优势。
Apr, 2024
通过提出 Global-Local 语义一致性学习方法,该研究利用文本-视频预训练模型,实现在文本-视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐,并引入一致性损失和多样性损失,达到概念对齐和生成更有区分性的概念的目的。实验结果表明,该方法在多个基准测试中具有优越的性能和高效率。
May, 2024
通过自动增强语言-视频数据集和多方位视频字幕生成方法,提高语言-视频表示能力,并通过多模态检索模型验证其有效性。
Jun, 2024
本研究解决了文本视频检索中常见的一对一对齐方法难以识别候选视频间细微差异的问题。提出的TokenBinder框架采用创新的二阶段一对多对齐方法,通过焦点融合网络动态对齐和比较多视频特征,从而捕捉更微妙的语境变化。实验证明,该方法在多个基准数据集上显著优于现有的最佳方法,展现了其在弥补信息差距方面的有效性。
Sep, 2024