文本-视频检索的解耦表征学习
本文提出了一种基于Tree-augmented Cross-modal Encoding的方法,用于结合学习查询的语言结构和视频的时间特征进行视频检索,以实现更好的视频检索性能。
Jul, 2020
本文提出了一种基于语言远程监督的检索式分离框架,称为Vocabulary Disentanglement Retrieval~(VDR),其依赖于生物编码器架构并具有解缠头,经过与其他基线方法的比较,VDR在大多数任务中都表现优异,并提高了可解释性和效率。
Dec, 2022
本研究提出了一种名为Disentangled Conceptualization and Set-to-set Alignment (DiCoSA) 的跨模态任务解决方法,可以将视觉实体与自然语言描述对齐,采用多个与语义概念相关的潜在因素来划分粗特征进行概念化,使用自适应的池化方法来聚合语义概念以解决部分匹配,并通过在少量维度上独立编码概念确保细粒度交互,从而实现高效和精细的交互。在多个数据集上的实验表明,该方法优于现有的最先进方法。
May, 2023
该研究论文介绍了一种在文本-视频检索中学习视频语义表示的方法,通过将一个空间-时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD和LSMDC)的最先进性能。
Aug, 2023
通过多粒度视觉特征学习和二阶段检索体系结构,本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法,同时在训练阶段采用了参数无关的文本门控交互块和额外的Pearson约束来优化跨模态表示学习,从而实现了与当前最先进方法相媲美的性能,且速度快近50倍。
Jan, 2024
我们提出了一种基于分块匹配的文本-视频检索方法,通过构建多模态超图和引入变分推断,实现在高阶语义空间中对文本和视频的复杂多元交互进行建模,进而提高检索性能。
Jan, 2024
该研究提出了UNIFY框架,通过学习词库表示来捕捉细粒度语义概念,并结合潜在表示和词库表示的优势进行视频文本检索。实验证明,UNIFY框架大大优于先前的视频文本检索方法,在MSR-VTT和DiDeMo上分别提高了4.8%和8.2%的Recall@1。
Feb, 2024
通过提出 Global-Local 语义一致性学习方法,该研究利用文本-视频预训练模型,实现在文本-视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐,并引入一致性损失和多样性损失,达到概念对齐和生成更有区分性的概念的目的。实验结果表明,该方法在多个基准测试中具有优越的性能和高效率。
May, 2024
本研究解决了文本视频检索中常见的一对一对齐方法难以识别候选视频间细微差异的问题。提出的TokenBinder框架采用创新的二阶段一对多对齐方法,通过焦点融合网络动态对齐和比较多视频特征,从而捕捉更微妙的语境变化。实验证明,该方法在多个基准数据集上显著优于现有的最佳方法,展现了其在弥补信息差距方面的有效性。
Sep, 2024
本文解决了文本视频检索(TVR)中视频与文本模态之间固有差异导致匹配不准确的问题。提出了一个新框架TV-ProxyNet,通过将传统的1对N关系转变为N个1对1关系,提高了查询的精度与覆盖范围。实验结果表明,该方法在MSRVTT和ActivityNet Captions上达到了最先进的表现,验证了其在语义映射和减少错误倾向方面的有效性。
Oct, 2024