Mug-STAN:适用于通用视频理解的图像语言预训练模型的调整
本文提出一种简单有效的方法,将预先训练好的语言-图像模型直接应用于视频识别中,使用跨帧注意力机制及视频特定提示方案,实现对长时序列的检测,提高了零样本下的准确率。
Aug, 2022
通过对数据规模和语言源域差异的研究,本文提出了一种基于CLIP的OmniSource跨模态学习方法,称为CLIP-ViP,通过视频代理机制改进后续预训练CLIP,从而实现显著提高视频-文本检索的性能。该方法在多个数据集上均取得了SOTA结果。
Sep, 2022
本论文基于CLIP模型,提出了一种名为STAN的时空建模机制,用于将图像-文本预训练模型扩展到视频领域,并在视频文本检索和视频识别等多项任务中展现了其优越性。
Jan, 2023
我们提出了一种称为LanguageBind的方法,通过冻结VL预训练得到的语言编码器,然后使用对比学习训练其他多模态编码器,实现多模态语义对齐,同时我们还提出了VIDAL-10M数据集用于此目的,经过在该数据集上的预训练,我们在零样本视频文本检索方面优于ImageBind 1.2% R@1,并且在零样本视频,音频,深度和红外理解任务方面也取得了显著改进。
Oct, 2023
我们通过对图像文本模型在视频理解任务中的泛化能力进行详细研究,发现这些模型在视频行动识别、视频检索和视频多项选择方面表现出强大性能,对视频字幕能力中等,对视频问答能力较差,这些结果揭示了在避免昂贵的预训练阶段的同时,将基础图像文本模型应用于各种视频任务的益处。
Oct, 2023
我们提出了一种名为RTQ(Refine,Temporal model和Query)的新型框架,同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战,这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是,即使在无视频语言预训练的情况下,我们的模型也表现出色,并且结果与或优于最先进的预训练方法。
Dec, 2023
该论文介绍了一种名为TOPA的新方法,通过使用现有的大型语言模型(LLM)自动生成模拟真实视频-文本数据的连续文本帧,进而预对齐一种仅使用语言的LLM与视频模态之间的差距,并利用CLIP模型作为特征提取器来对齐图像和文本模态,从而实现了视频内容与LLMs的对齐。经过广泛实验证明,TOPA是一种有效而高效的框架,可与视频理解任务相结合,并达到与GPT-3.5基于视频代理相当的性能。
May, 2024
VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performance across multiple video benchmarks, and is evaluated using VCGBench-Diverse, a comprehensive benchmark covering diverse video types and dynamics.
Jun, 2024