Mug-STAN：适用于通用视频理解的图像语言预训练模型的调整

Nov, 2023

Mug-STAN：适用于通用视频理解的图像语言预训练模型的调整

Mug-STAN: Adapting Image-Language Pretrained Models for General Video Understanding

Ruyang Liu, Jingjia Huang, Wei Gao, Thomas H. Li, Ge Li

TL;DR我们在这篇论文中研究了从模型和数据的角度来展示图像到视频转换的挑战，并提出了一种名为Mug-STAN的简单而有效的框架，通过解决非一般化时序建模和部分不匹配的视频文本数据的问题，将图像-文本模型扩展到多样化的视频任务和视频-文本数据。

Abstract

large-scale image-language pretrained models, e.g., CLIP, have demonstrated remarkable proficiency in acquiring general multi-modal knowledge through web-scale image-text data. Despite the impressive performance of image-language models on various image tasks, how to effectively expand

发现论文，激发创造

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言-图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

CLIP-ViP：基于预训练图文模型的视频语言表示对齐

通过对数据规模和语言源域差异的研究，本文提出了一种基于CLIP的OmniSource跨模态学习方法，称为CLIP-ViP，通过视频代理机制改进后续预训练CLIP，从而实现显著提高视频-文本检索的性能。该方法在多个数据集上均取得了SOTA结果。

Sep, 2022

重新审视基于CLIP的图像到视频知识传递的时间建模

本论文基于CLIP模型，提出了一种名为STAN的时空建模机制，用于将图像-文本预训练模型扩展到视频领域，并在视频文本检索和视频识别等多项任务中展现了其优越性。

Jan, 2023

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

语言绑定：通过基于语言的语义对齐将视频-语言预训练扩展到N-模态

我们提出了一种称为LanguageBind的方法，通过冻结VL预训练得到的语言编码器，然后使用对比学习训练其他多模态编码器，实现多模态语义对齐，同时我们还提出了VIDAL-10M数据集用于此目的，经过在该数据集上的预训练，我们在零样本视频文本检索方面优于ImageBind 1.2％ R@1，并且在零样本视频，音频，深度和红外理解任务方面也取得了显著改进。

Oct, 2023

分析视觉语言模型在视频理解任务上的零样本能力

我们通过对图像文本模型在视频理解任务中的泛化能力进行详细研究，发现这些模型在视频行动识别、视频检索和视频多项选择方面表现出强大性能，对视频字幕能力中等，对视频问答能力较差，这些结果揭示了在避免昂贵的预训练阶段的同时，将基础图像文本模型应用于各种视频任务的益处。

Oct, 2023

RTQ：基于图文模型重新思考视频语言理解

我们提出了一种名为RTQ（Refine，Temporal model和Query）的新型框架，同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战，这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是，即使在无视频语言预训练的情况下，我们的模型也表现出色，并且结果与或优于最先进的预训练方法。

Dec, 2023

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频-语言基准上取得了显著结果。

Jan, 2024

TOPA: 通过文本预对齐扩展大型语言模型用于视频理解

该论文介绍了一种名为TOPA的新方法，通过使用现有的大型语言模型（LLM）自动生成模拟真实视频-文本数据的连续文本帧，进而预对齐一种仅使用语言的LLM与视频模态之间的差距，并利用CLIP模型作为特征提取器来对齐图像和文本模态，从而实现了视频内容与LLMs的对齐。经过广泛实验证明，TOPA是一种有效而高效的框架，可与视频理解任务相结合，并达到与GPT-3.5基于视频代理相当的性能。

May, 2024

VideoGPT+: 图像和视频编码器的综合应用以提升视频理解能力

VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performance across multiple video benchmarks, and is evaluated using VCGBench-Diverse, a comprehensive benchmark covering diverse video types and dynamics.

Jun, 2024