基于阅读策略的视觉表征学习用于文本至视频检索
本文提出了一种基于视觉空间进行图像和视频描述检索的深度神经网络模型,通过多尺度句向量化和多层感知器等方法,将文本输入转化为视觉特征表示,实现了优于文本嵌入的多模态检索效果。
Sep, 2017
该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式,以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法,采用协作专家模型来聚合信息,具有良好的检索性能。
Jul, 2019
本文提出了一种使用生成模型来自然地将相关样本聚集在一起的新方法,以确保表征不过度特化于个别样本,可以在数据集中重复使用,并且结果表明,相对于噪声对比学习,我们的方法在 MSR-VTT、VATEX、ActivityNet 和 MSVD 上取得了更好的视频-文本检索性能。
Oct, 2020
提出了一种名为 X-Pool 的跨模态注意力模型,用于在文本和视频之间进行推理,从而提取重要的视觉线索。通过使用一个标度点乘的注意力机制,允许文本关注其最语义相似的帧,并生成基于文本的帧的注意力权重的聚合视频表示。在 MSR-VTT、MSVD 和 LSMDC 三个基准数据集上进行评估,实现了相对提高 Recall@1 高达 12% 的新的最佳效果。
Mar, 2022
本文提出了一种名为 HiSE 的视觉语言对齐模型,通过明确的高层语义信息来提高跨模态表示,结合图形推理技术来促进全局和离散高级语义之间的交互,通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明,我们的方法在 VTR 上实现了优于现有方法的性能表现。
Aug, 2022
本文旨在解决跨模态视频检索问题,具体聚焦于文本到视频的检索,并探讨将多种不同的文本和视觉特征最佳组合以生成多个联合特征空间的方法。通过多空间学习过程训练网络结构,引入额外的softmax运算来修正推断的查询-视频相似性,并在三个大规模数据集上进行实验验证,以记录所提出网络的表现。
Nov, 2022
提出了一种新的跨模态视频检索数据集TextVR,它包含了八个场景领域的10.5k个视频和42.2k个查询语句,并介绍了一种统一的跨模态模型,有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。
May, 2023
本文提出了一种将预训练的判别性视觉-语言模型与预训练的生成性视频-文本和文本-文本模型相结合的框架,在零样本设置中引入了两个关键改进,提高了视觉-语言模型的性能,并在视频理解方面展示了一致的改进。
Oct, 2023
提出一种高效和高性能的部分相关视频检索方法,通过使用超级图像、视觉编码和细调方法,实现了在ActivityNet Captions和TVR上的最佳性能。
Dec, 2023
通过多粒度视觉特征学习和二阶段检索体系结构,本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法,同时在训练阶段采用了参数无关的文本门控交互块和额外的Pearson约束来优化跨模态表示学习,从而实现了与当前最先进方法相媲美的性能,且速度快近50倍。
Jan, 2024