重新审视基于CLIP的图像到视频知识传递的时间建模

Jan, 2023

重新审视基于CLIP的图像到视频知识传递的时间建模

Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring

Ruyang Liu, Jingjia Huang, Ge Li, Jiashi Feng, Xinglong Wu...

TL;DR本论文基于CLIP模型，提出了一种名为STAN的时空建模机制，用于将图像-文本预训练模型扩展到视频领域，并在视频文本检索和视频识别等多项任务中展现了其优越性。

Abstract

Image-text pretrained models, e.g., CLIP, have shown impressive general multi-modal knowledge learned from large-scale image-text data pairs, thus attracting increasing attention for their potential to improve visual representation learning in the video domain. In this paper, based on the cli

发现论文，激发创造

CLIP2Video: 通过Image CLIP掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

CLIP-Hitchhiker的长视频检索指南

本文旨在将图像-文本模型应用于长视频检索，并通过查询打分的帧嵌入的加权平均作为时间建模有效基线，提出一种在长视频检索基准测试中表现卓越的改善方法。

May, 2022

CLIP-ViP：基于预训练图文模型的视频语言表示对齐

通过对数据规模和语言源域差异的研究，本文提出了一种基于CLIP的OmniSource跨模态学习方法，称为CLIP-ViP，通过视频代理机制改进后续预训练CLIP，从而实现显著提高视频-文本检索的性能。该方法在多个数据集上均取得了SOTA结果。

Sep, 2022

从自然剧本知识中学习可转移的时空表示

本研究提出了一种利用语义转录排序来增强可转移的时空表示学习的方法，通过将视觉模型与自然转录的语言知识结合起来，使视频模型能够在时间上建立背景并重塑叙述性的转录，从而实现在多样化数据集上表现出色。

Sep, 2022

优化过的CLIP模型是高效的视频学习器

论文提出了一种用于显式建模时间序列的新型模块，通过视频精调CLIP模型，可以将图像级别的表示有效地转移到视频领域，取得了良好的实验效果。

Dec, 2022

SViTT: 稀疏视频文本Transformer的时间学习

通过引入边缘稀疏性和节点稀疏性的SViTT稀疏视频文本架构可以以较低的成本进行多帧推理，优于朴素变压器基线，并对多个视频文本检索和问答基准进行了训练，以及在更长的片段长度下是针对模型稀疏性（sparsity）进行了培训。

Apr, 2023

Prompt Switch: 高效的CLIP适应文本-视频检索

该研究论文介绍了一种在文本-视频检索中学习视频语义表示的方法，通过将一个空间-时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD和LSMDC）的最先进性能。

Aug, 2023

高效图像到视频迁移学习的空间和时间解耦

DiST是一种双编码器结构，其中预训练的基础模型充当空间编码器，引入了轻量级网络作为时间编码器，通过插入一个集成分支来融合时空信息，从而实现了视频的空间和时间解耦学习，提高了性能表现。

Sep, 2023

Mug-STAN：适用于通用视频理解的图像语言预训练模型的调整

我们在这篇论文中研究了从模型和数据的角度来展示图像到视频转换的挑战，并提出了一种名为Mug-STAN的简单而有效的框架，通过解决非一般化时序建模和部分不匹配的视频文本数据的问题，将图像-文本模型扩展到多样化的视频任务和视频-文本数据。

Nov, 2023

VideoGPT+: 图像和视频编码器的综合应用以提升视频理解能力

VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performance across multiple video benchmarks, and is evaluated using VCGBench-Diverse, a comprehensive benchmark covering diverse video types and dynamics.

Jun, 2024