T2VLAD:文本 - 视频检索的全局 - 局部序列对齐
通过提出 Global-Local 语义一致性学习方法,该研究利用文本 - 视频预训练模型,实现在文本 - 视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐,并引入一致性损失和多样性损失,达到概念对齐和生成更有区分性的概念的目的。实验结果表明,该方法在多个基准测试中具有优越的性能和高效率。
May, 2024
本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
我们提出了一种基于分块匹配的文本 - 视频检索方法,通过构建多模态超图和引入变分推断,实现在高阶语义空间中对文本和视频的复杂多元交互进行建模,进而提高检索性能。
Jan, 2024
本文提出了一种方法来自动对齐视频和文本,并使用向量特征将其视为时间分配问题,最终得出整数解决方案,这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。
May, 2015
本文提出了一种文本自适应多视觉原型匹配模型,通过自适应聚合视频标记特征来描述视频,以解决视频和文本之间的关联模糊问题,而且此方法表现优于当前公共视频检索数据集上的最新技术。
Sep, 2022
本文提出了一种 Hierarchical Alignment Network 框架,通过把视频和文本分解成三个层次,即事件 - 动作 - 实体水平,并在个体 - 局部 - 全局层次上构建层次表示,捕捉视频和文本之间的从精细到粗略的对应关系,从而最大化利用三个语义层次的互补信息,以实现视频文本检索和匹配任务的高效和精度。实验结果表明,所提出的框架在两个公共数据集上优于其他最先进的方法,证明了层次表示和匹配的有效性。
Jul, 2021
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。
Apr, 2020
本文提出了一种名为 JSFusion(联合序列融合)的方法,可以测量多模式序列数据(例如视频剪辑和语言句子)之间的语义相似性,并通过发现两个序列模态之间的隐藏分层匹配来计算它们的相似度得分,该模型适用于多模式检索和视频 QA 等任务,并在多个数据集上超过了现有的许多最先进的方法。
Aug, 2018
我们提出了一个跨模态的动态提示调整方法,使用全局 - 局部注意机制对视频进行建模,通过仅调整 0.67%的参数,我们的方法在 MSR-VTT,VATEX,LSMDC 和 ActivityNet 数据集上优于或与完全微调方法相当。
Jan, 2024
提出了一种名为 X-Pool 的跨模态注意力模型,用于在文本和视频之间进行推理,从而提取重要的视觉线索。通过使用一个标度点乘的注意力机制,允许文本关注其最语义相似的帧,并生成基于文本的帧的注意力权重的聚合视频表示。在 MSR-VTT、MSVD 和 LSMDC 三个基准数据集上进行评估,实现了相对提高 Recall@1 高达 12% 的新的最佳效果。
Mar, 2022