重新审视基于 CLIP 的图像到视频知识传递的时间建模
我们在这篇论文中研究了从模型和数据的角度来展示图像到视频转换的挑战,并提出了一种名为 Mug-STAN 的简单而有效的框架,通过解决非一般化时序建模和部分不匹配的视频文本数据的问题,将图像 - 文本模型扩展到多样化的视频任务和视频 - 文本数据。
Nov, 2023
CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索,采用端到端方式,区别于领先的视频和语言学习方法的多模态交互,我们利用预训练的图像语言模型,进一步简化为两个具体阶段的框架,使其能够在相对较少的数据集上进行训练,并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性,我们在 MSR-VTT,MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。
Jun, 2021
该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法,通过将一个空间 - 时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD 和 LSMDC)的最先进性能。
Aug, 2023
本研究提出了 CLIP4Clip 模型,将 CLIP 模型的知识以端到端的方式迁移到视频 - 文本检索上,从多个角度对其表现进行实验证明其在各种数据集上比其他模型表现更好,同时释放其代码供学术界使用。
Apr, 2021
论文提出了一种用于显式建模时间序列的新型模块,通过视频精调 CLIP 模型,可以将图像级别的表示有效地转移到视频领域,取得了良好的实验效果。
Dec, 2022
该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架,通过引入多模态适配器和多任务解码器,实现强大的监督学习性能和在零样本场景中的强大泛化能力。
Jan, 2024
DiST 是一种双编码器结构,其中预训练的基础模型充当空间编码器,引入了轻量级网络作为时间编码器,通过插入一个集成分支来融合时空信息,从而实现了视频的空间和时间解耦学习,提高了性能表现。
Sep, 2023
本文提出了一种新颖的隐式学习对齐(ILA)方法,可在视频中实现高效的空间自注意力,避免了昂贵或不充足的时间自注意力。 在 Kinetics-400 上,提出的 ILA 与 Swin-L 和 ViViT-H 相比,仅使用更少的 FLOPs 即可实现 88.7%的 top-1 准确率。
Apr, 2023