对比预训练视频优先编码器的简单配方：超过 16 帧

Dec, 2023

对比预训练视频优先编码器的简单配方：超过 16 帧

A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames

Pinelopi Papalampidi, Skanda Koppula, Shreya Pathak, Justin Chiu, Joe Heyward...

TL;DR我们研究了长时间、真实世界的视频，发现了视频与文本模型的两个限制：空间能力不足和内存消耗过高。通过分析不同的高效方法进行内存 / 准确度权衡，我们发现简单地遮盖视频的大部分内容是扩展编码器的一种最有效方式。我们提出的简单方法，能够训练具有 10 亿参数的长视频到文本模型，并在长时间依赖性基准测试中胜过更大的信息聚合模型。

Abstract

Understanding long, real-world videos requires modeling of long-range visual dependencies. To this end, we explore video-first architectures, building on the common paradigm of transferring large-scale, image--text models to video via shallow temporal fusion. However, we expose two lim

long-range visual dependencies video-first architectures memory bottleneck efficient methods long video-to-text models

发现论文，激发创造

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言 - 图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

用于高效视频文本检索的掩码对比预训练

本文提出了一种简单而有效的视频 - 语言预训练框架，用于视频 - 文本检索任务，并采用掩蔽对比视频 - 语言预训练进行了优化，以提高预训练效率和性能，并实现了与图像 - 文本检索任务的竞争结果。

Dec, 2022

视频 Transformer 的长短时对比学习

本文提出了一种叫做 “长短时对比学习（LSTCL）” 的学习程序，可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时，学习一个有效的剪辑级表示，并在多项视频基准测试上取得了有竞争力的表现，成为有监督基于图像的预训练的有力替代方案。

Jun, 2021

文本条件下的长篇视频理解的重新采样器

使用文本条件的视频重采样器（TCR）模块和预训练的视觉编码器和大型语言模型（LLM），我们设计了一种基于 Transformer 的采样架构，可以处理长视频序列，并通过交叉注意机制，将相关的视觉特征从视频中提取出来，并通过 LLM 生成文本响应。我们的方法在各种评估任务中表现出很好的效果，并在 NextQA、EgoSchema 和 EGO4D-LTA 挑战赛中创造了最新的最好成绩，我们还发现了需要较长视频上下文的任务，可以有效地用于进一步评估长程视频模型。

Dec, 2023

TVTSv2：学习开箱即用的大规模时空视觉表示

本论文分析了导致视频模型性能下降的因素 —— 语言监督失真，提出了一种去除降级的预训练策略，并采用排序任务同时使用掩蔽技术进行可扩展的训练，得到了一系列新的模型。

May, 2023

使用状态空间视频模型进行长视频片段分类

提出了一种结合自我关注和 S4 层优点的高效长范围视频模型，具有复杂的长范围时空依赖性，比传统的全自注意模型快 2.63 倍，占用 8 倍更少的 GPU 内存，并在视频分类等任务中取得了最先进的结果。

Apr, 2022

电影对话：从密集令牌到稀疏记忆的长视频理解

视频理解系统 MovieChat 利用大型语言模型和视频基础模型，通过引入记忆机制解决了处理长视频时的计算复杂性、内存开销和长期时间连接等挑战。

Jul, 2023

无监督层次化长期视频预测

本文提出了一种基于神经网络的 Hierarchical Encoder-Decoder 模型，通过对输入帧进行编码，预测高级别的特征，再通过解码器生成预测图像，同时采用了对抗性损失以训练预测器，该方法可以进行 20 秒预测，并在 Human 3.6M 数据集上取得了更好的结果。

Jun, 2018

VIMPAC: 基于掩码预测和对比学习的视频预训练

该研究基于预测任务以及块状掩码策略，提出一种输入处理策略及无数据扩充方法，以达到在 SSV2、Diving48 等视频理解数据集上实现最先进效果的目的，并对模型伸缩性和预训练方法进行了详细分析。

Jun, 2021

一段视频胜过万言：利用多样化字幕进行更好的长视频检索的训练和基准测试

通过对长视频生成多样的合成标题，使用大型语言模型评估长视频检索系统的能力，并提出轻量级微调方法（基于对不同标题中信息层级的差异进行对比损失学习），在下游的段落 - 视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。

Nov, 2023