文本视频双编码检索
本研究旨在寻找最佳描述图像或视频内容的语句,通过生成句向量和多层感知机,构建了一个名为Word2VisualVec的深度神经网络体系结构来实现针对图像或视频与句子的匹配。该体系结构在四个复杂的图像和视频基准上的实验测试中表现出显着的现实结果。
Apr, 2016
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016
本文提出了一种基于Tree-augmented Cross-modal Encoding的方法,用于结合学习查询的语言结构和视频的时间特征进行视频检索,以实现更好的视频检索性能。
Jul, 2020
本研究提出了一种名为 Sentence Encoder Assembly 的新方法,通过多空间多损失学习实现语句编码器的有效利用和文本-视频匹配,并在四个基准测试中表现出优于当前最先进技术的性能。
Nov, 2020
本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索,并将两种方法相结合,提高了检索准确性并确保了可扩展性,同时还引入了新的细粒度跨注意力架构,并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型,并在Flickr30K图像数据集和VATEX视频数据集上验证了该方法。
Mar, 2021
本研究目标是视频文本检索-特别是一种联合嵌入,可以实现高效的文本到视频检索。作者们提出了一种端到端可训练的模型,旨在利用大规模的图像和视频字幕数据集。该模型是近期 ViT 和 Timesformer 框架的改进扩展,包括时间和空间方面的注意力机制。通过训练WebVid-2M数据集,作者们表明这种方法在标准下游的视频检索基准测试中取得了最先进的结果。
Apr, 2021
CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索,采用端到端方式,区别于领先的视频和语言学习方法的多模态交互,我们利用预训练的图像语言模型,进一步简化为两个具体阶段的框架,使其能够在相对较少的数据集上进行训练,并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性,我们在 MSR-VTT,MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。
Jun, 2021
本文旨在解决跨模态视频检索问题,具体聚焦于文本到视频的检索,并探讨将多种不同的文本和视觉特征最佳组合以生成多个联合特征空间的方法。通过多空间学习过程训练网络结构,引入额外的softmax运算来修正推断的查询-视频相似性,并在三个大规模数据集上进行实验验证,以记录所提出网络的表现。
Nov, 2022
该研究提出了UNIFY框架,通过学习词库表示来捕捉细粒度语义概念,并结合潜在表示和词库表示的优势进行视频文本检索。实验证明,UNIFY框架大大优于先前的视频文本检索方法,在MSR-VTT和DiDeMo上分别提高了4.8%和8.2%的Recall@1。
Feb, 2024