使用 CLIP 的视频检索简明框架
CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索,采用端到端方式,区别于领先的视频和语言学习方法的多模态交互,我们利用预训练的图像语言模型,进一步简化为两个具体阶段的框架,使其能够在相对较少的数据集上进行训练,并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性,我们在 MSR-VTT,MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。
Jun, 2021
本研究提出了 CLIP4Clip 模型,将 CLIP 模型的知识以端到端的方式迁移到视频 - 文本检索上,从多个角度对其表现进行实验证明其在各种数据集上比其他模型表现更好,同时释放其代码供学术界使用。
Apr, 2021
该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法,通过将一个空间 - 时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD 和 LSMDC)的最先进性能。
Aug, 2023
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
本文旨在将图像 - 文本模型应用于长视频检索,并通过查询打分的帧嵌入的加权平均作为时间建模有效基线,提出一种在长视频检索基准测试中表现卓越的改善方法。
May, 2022
通过多粒度视觉特征学习和二阶段检索体系结构,本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法,同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习,从而实现了与当前最先进方法相媲美的性能,且速度快近 50 倍。
Jan, 2024
通过使用单个时间戳作为廉价的注释来源,本研究提出了一种视频文本检索方法,其中初始视频片段边界从时间戳启动,并通过视频片段编辑方法进行改进,以提高检索性能。实验结果表明,通过编辑视频片段可以持续改善检索性能。
Feb, 2024
该文章提出了一种新的、能够利用文本和视频间的交互,预测起始和结束帧的提取方法,以避免检索和重新排序多个候选段落。使用递归网络将两种模态编码成共同表示,该方法在多项实验和去除分析中表现显著,比现有技术提升了性能。
Apr, 2019
本文提出了一种多层级的模型,早期并更紧密地集成了视觉和语言特性,用于解决从未剪辑的视频中基于文本的活动检索问题,其中包括注入文本特性以加速处理和提高性能,以及利用视觉特征在循环神经网络中模拟查询句子的单词级处理以学习细粒度的相似性度量,同时采用多任务损失函数。该方法在 Charades-STA 和 ActivityNet Captions 两个具有挑战性的基准测试中表现出较高效果。
Apr, 2018
通过提出 Global-Local 语义一致性学习方法,该研究利用文本 - 视频预训练模型,实现在文本 - 视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐,并引入一致性损失和多样性损失,达到概念对齐和生成更有区分性的概念的目的。实验结果表明,该方法在多个基准测试中具有优越的性能和高效率。
May, 2024