重新审视基于CLIP的图像到视频知识传递的时间建模
CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索,采用端到端方式,区别于领先的视频和语言学习方法的多模态交互,我们利用预训练的图像语言模型,进一步简化为两个具体阶段的框架,使其能够在相对较少的数据集上进行训练,并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性,我们在 MSR-VTT,MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。
Jun, 2021
本文旨在将图像-文本模型应用于长视频检索,并通过查询打分的帧嵌入的加权平均作为时间建模有效基线,提出一种在长视频检索基准测试中表现卓越的改善方法。
May, 2022
通过对数据规模和语言源域差异的研究,本文提出了一种基于CLIP的OmniSource跨模态学习方法,称为CLIP-ViP,通过视频代理机制改进后续预训练CLIP,从而实现显著提高视频-文本检索的性能。该方法在多个数据集上均取得了SOTA结果。
Sep, 2022
本研究提出了一种利用语义转录排序来增强可转移的时空表示学习的方法,通过将视觉模型与自然转录的语言知识结合起来,使视频模型能够在时间上建立背景并重塑叙述性的转录,从而实现在多样化数据集上表现出色。
Sep, 2022
通过引入边缘稀疏性和节点稀疏性的SViTT稀疏视频文本架构可以以较低的成本进行多帧推理,优于朴素变压器基线,并对多个视频文本检索和问答基准进行了训练,以及在更长的片段长度下是针对模型稀疏性(sparsity)进行了培训。
Apr, 2023
该研究论文介绍了一种在文本-视频检索中学习视频语义表示的方法,通过将一个空间-时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD和LSMDC)的最先进性能。
Aug, 2023
DiST是一种双编码器结构,其中预训练的基础模型充当空间编码器,引入了轻量级网络作为时间编码器,通过插入一个集成分支来融合时空信息,从而实现了视频的空间和时间解耦学习,提高了性能表现。
Sep, 2023
我们在这篇论文中研究了从模型和数据的角度来展示图像到视频转换的挑战,并提出了一种名为Mug-STAN的简单而有效的框架,通过解决非一般化时序建模和部分不匹配的视频文本数据的问题,将图像-文本模型扩展到多样化的视频任务和视频-文本数据。
Nov, 2023
VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performance across multiple video benchmarks, and is evaluated using VCGBench-Diverse, a comprehensive benchmark covering diverse video types and dynamics.
Jun, 2024