HANet: 视频文本检索的分层对齐网络
本文主要设计了一种高效的全局-局部对齐方法,在共享的语义中心集合中,自适应地汇聚多模式视频序列和文本特征,并计算相同中心内的视频特征与文本特征之间的局部交叉模态相似性,从而实现了细致的局部比较,同时降低了交互成本。此外,还提出了一种全局对齐方法,并在三个标准的文本-视频检索基准测试中取得了一致的改进和领先的效果。
Apr, 2021
本文提出了一种时间对齐网络,能够对长期视频序列和关联文本句子进行处理,使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频,应用于多个视频理解任务,包括文本-视频检索和弱监督视频动作分割等,获得了更好的性能。
Apr, 2022
本文着眼于视频和语言之间的语义联系,提出了一种多级对齐训练方案,基于信息相似性从高层次的上下文到细粒度的语义,通过对称损失来对齐视频和语言的编码,从而在共享特征空间中确保相似信息紧密编码而不同语义的信息保持分开。我们的多级对齐训练可应用于各种视频和语言接地任务。连同任务特定的训练损失,我们的框架在多个视频 QA 和检索数据集上实现了与先前现有技术的可比较性能。
Apr, 2022
本文提出了一种名为 HiSE 的视觉语言对齐模型,通过明确的高层语义信息来提高跨模态表示,结合图形推理技术来促进全局和离散高级语义之间的交互,通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明,我们的方法在 VTR 上实现了优于现有方法的性能表现。
Aug, 2022
本文提出了一种用于视频-文本检索的 TABLE(标记前对齐)网络,该网络通过标记将多模态信息显式地集成在一起,并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下,使用预训练的多模态专家从多模态中提取信息。实验表明,TABLE模型在MSR-VTT、MSVD、LSMDC和DiDeMo等多个视频-文本检索基准中表现出了最先进的性能。
Jan, 2023
通过介绍VideoCon,我们的研究在应对视频字幕中语义上合理的对比变化方面改进了视频-语言对齐模型的鲁棒性,提出了一个广泛的对比失配频谱,并通过一个大规模语言模型构建了基于对比视频字幕的VideoCon对齐数据集,我们的对齐模型在人为生成的对比字幕上在视频-语言对齐任务中的AUC指标上有了12个百分点的提升,同时在诸如文本到视频检索(SSv2-Temporal)和视频问答(ATP-Hard)等时间广泛的视频-语言任务中表现出了零-shot的最新性能。
Nov, 2023
我们提出了VidLA,这是一种用于大规模视频-语言对齐的方法,通过在不同时间分辨率上使用一组数据令牌,以层次化的方式捕捉短程和长程的时间依赖关系,并通过简单的双塔架构,使用预训练的图像-文本基础模型来提高最终性能。此外,我们利用最近的LLMs构建了迄今为止规模最大的视频-语言数据集,包含不同长度的视频片段,以帮助在不同时间尺度下提取更好的表示。实验证明,我们的方法在多个检索基准上超过了现有的最先进方法,特别是在较长的视频上,并在分类基准上具有竞争力。
Mar, 2024
本文介绍了一种名为SHE-Net的新型语法层次增强文本-视频检索方法,通过利用文本的语义和语法层次,从两个方面弥合模态差距,并在四个公共文本-视频检索数据集上验证了该方法的优势。
Apr, 2024
通过提出 Global-Local 语义一致性学习方法,该研究利用文本-视频预训练模型,实现在文本-视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐,并引入一致性损失和多样性损失,达到概念对齐和生成更有区分性的概念的目的。实验结果表明,该方法在多个基准测试中具有优越的性能和高效率。
May, 2024
本研究解决了文本视频检索中常见的一对一对齐方法难以识别候选视频间细微差异的问题。提出的TokenBinder框架采用创新的二阶段一对多对齐方法,通过焦点融合网络动态对齐和比较多视频特征,从而捕捉更微妙的语境变化。实验证明,该方法在多个基准数据集上显著优于现有的最佳方法,展现了其在弥补信息差距方面的有效性。
Sep, 2024