CLIP-Hitchhiker 的长视频检索指南
该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法,通过将一个空间 - 时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD 和 LSMDC)的最先进性能。
Aug, 2023
本研究提出了 CLIP4Clip 模型,将 CLIP 模型的知识以端到端的方式迁移到视频 - 文本检索上,从多个角度对其表现进行实验证明其在各种数据集上比其他模型表现更好,同时释放其代码供学术界使用。
Apr, 2021
通过多粒度视觉特征学习和二阶段检索体系结构,本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法,同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习,从而实现了与当前最先进方法相媲美的性能,且速度快近 50 倍。
Jan, 2024
CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索,采用端到端方式,区别于领先的视频和语言学习方法的多模态交互,我们利用预训练的图像语言模型,进一步简化为两个具体阶段的框架,使其能够在相对较少的数据集上进行训练,并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性,我们在 MSR-VTT,MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。
Jun, 2021
通过使用单个时间戳作为廉价的注释来源,本研究提出了一种视频文本检索方法,其中初始视频片段边界从时间戳启动,并通过视频片段编辑方法进行改进,以提高检索性能。实验结果表明,通过编辑视频片段可以持续改善检索性能。
Feb, 2024
本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法,通过使用 CLIP 分数指导带有问题的帧采样过程,并将问题信息注入到图像 Q-former 的查询中以获取更重要的视觉特征,最终在 MovieChat 数据集上取得了 84.2%和 62.9%的全局和断点模式准确率,超过了官方基线模型的 29.1%和 24.1%,在 CVPR LOVEU 2024 长期视频问答挑战中获得了第三名。
Jun, 2024
本论文基于 CLIP 模型,提出了一种名为 STAN 的时空建模机制,用于将图像 - 文本预训练模型扩展到视频领域,并在视频文本检索和视频识别等多项任务中展现了其优越性。
Jan, 2023
论文提出了一种用于显式建模时间序列的新型模块,通过视频精调 CLIP 模型,可以将图像级别的表示有效地转移到视频领域,取得了良好的实验效果。
Dec, 2022
我们引入了一种音视频结合的文本到视频检索方法,称为 ECLIPSE,该方法通过将动态音频事件与视频的补充提示统一编码来适应长范围视频,提高了检索准确性降低了计算成本。
Apr, 2022