T2VLAD:文本-视频检索的全局-局部序列对齐
CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索,采用端到端方式,区别于领先的视频和语言学习方法的多模态交互,我们利用预训练的图像语言模型,进一步简化为两个具体阶段的框架,使其能够在相对较少的数据集上进行训练,并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性,我们在 MSR-VTT,MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。
Jun, 2021
本文提出了一种Hierarchical Alignment Network框架,通过把视频和文本分解成三个层次,即事件-动作-实体水平,并在个体-局部-全局层次上构建层次表示,捕捉视频和文本之间的从精细到粗略的对应关系,从而最大化利用三个语义层次的互补信息,以实现视频文本检索和匹配任务的高效和精度。实验结果表明,所提出的框架在两个公共数据集上优于其他最先进的方法,证明了层次表示和匹配的有效性。
Jul, 2021
提出了一种名为 X-Pool 的跨模态注意力模型,用于在文本和视频之间进行推理,从而提取重要的视觉线索。通过使用一个标度点乘的注意力机制,允许文本关注其最语义相似的帧,并生成基于文本的帧的注意力权重的聚合视频表示。在 MSR-VTT、MSVD 和 LSMDC 三个基准数据集上进行评估,实现了相对提高 Recall@1 高达 12% 的新的最佳效果。
Mar, 2022
本文提出了一种名为 HiSE 的视觉语言对齐模型,通过明确的高层语义信息来提高跨模态表示,结合图形推理技术来促进全局和离散高级语义之间的交互,通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明,我们的方法在 VTR 上实现了优于现有方法的性能表现。
Aug, 2022
本文提出了一种用于视频-文本检索的 TABLE(标记前对齐)网络,该网络通过标记将多模态信息显式地集成在一起,并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下,使用预训练的多模态专家从多模态中提取信息。实验表明,TABLE模型在MSR-VTT、MSVD、LSMDC和DiDeMo等多个视频-文本检索基准中表现出了最先进的性能。
Jan, 2023
通过联合考虑不同粒度的跨模态相似性,我们提出了一种统一的多粒度对齐模型UCoFiA,显著优于以前的基于CLIP方法,在多个视频-文本检索基准上表现出了2.4%,1.4%和1.3%的文本到视频检索R@1改进。
Sep, 2023
通过提升视频模态和文本模态的特征,Modal-Enhanced Semantic Modeling(MESM)框架在视频短片检索中实现了更平衡的对齐,填补了形式上不平衡的模态差距。实验证明该框架在多个基准测试上取得了显著的泛化能力和最佳效果。
Dec, 2023
通过提出 Global-Local 语义一致性学习方法,该研究利用文本-视频预训练模型,实现在文本-视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐,并引入一致性损失和多样性损失,达到概念对齐和生成更有区分性的概念的目的。实验结果表明,该方法在多个基准测试中具有优越的性能和高效率。
May, 2024
本研究解决了现有文本-视频检索方法中由于候选视频数量增加而导致的显著时间成本问题。提出的T2VIndexer模型通过生成视频标识符,以常数时间复杂度直接检索候选视频,从而提升检索效率,并在多个标准数据集上实现了优于现有最先进模型的检索性能。
Aug, 2024
本研究解决了文本视频检索中常见的一对一对齐方法难以识别候选视频间细微差异的问题。提出的TokenBinder框架采用创新的二阶段一对多对齐方法,通过焦点融合网络动态对齐和比较多视频特征,从而捕捉更微妙的语境变化。实验证明,该方法在多个基准数据集上显著优于现有的最佳方法,展现了其在弥补信息差距方面的有效性。
Sep, 2024