文本条件下的长篇视频理解的重新采样器

Dec, 2023

文本条件下的长篇视频理解的重新采样器

Text-Conditioned Resampler For Long Form Video Understanding

Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari

TL;DR使用文本条件的视频重采样器（TCR）模块和预训练的视觉编码器和大型语言模型（LLM），我们设计了一种基于 Transformer 的采样架构，可以处理长视频序列，并通过交叉注意机制，将相关的视觉特征从视频中提取出来，并通过 LLM 生成文本响应。我们的方法在各种评估任务中表现出很好的效果，并在 NextQA、EgoSchema 和 EGO4D-LTA 挑战赛中创造了最新的最好成绩，我们还发现了需要较长视频上下文的任务，可以有效地用于进一步评估长程视频模型。

Abstract

videos are highly redundant data source and it is often enough to identify a few key moments to solve any given task. In this paper, we present a text-conditioned video resampler (TCR) module that uses a pre-trai

videos text-conditioned video resampler transformer-based sampling architecture pre-trained visual and language models long-range video models

发现论文，激发创造

VicTR: 视频条件的文本表示用于活动识别

本文提出了使用 VicTR 方法对视频文本模型进行优化，在视觉信息外，加入文本信息，以提高活动识别性能，实验结果证明在多个基准测试中，该方法具有竞争性能，特别是在视频文本模型的监督、零样本和少样本情况下。

Apr, 2023

对比预训练视频优先编码器的简单配方：超过 16 帧

我们研究了长时间、真实世界的视频，发现了视频与文本模型的两个限制：空间能力不足和内存消耗过高。通过分析不同的高效方法进行内存 / 准确度权衡，我们发现简单地遮盖视频的大部分内容是扩展编码器的一种最有效方式。我们提出的简单方法，能够训练具有 10 亿参数的长视频到文本模型，并在长时间依赖性基准测试中胜过更大的信息聚合模型。

Dec, 2023

视频参照表达理解中的基于内容条件查询的 Transformer

使用动态查询和跨模态对齐，基于 Transformer 方法的 ConFormer 模型在视频参考表达理解中表现出色，实现了对目标对象的定位。

Oct, 2023

利用多项选择题桥接视频文本检索

该研究提出了一种新的预训练方法，利用多项选择问题建立视频和文本之间的语义联系以实现更高效的检索，其结果在不同实验设置下如零成本和微调等多种数据集上均优于现有方法。

Jan, 2022

长期视频预测的时间一致性视频 Transformer

通过引入基于向量量化的潜在动态视频预测模型和 MaskGit 先验，我们提出了一种名为 TECO 的模型，它可以在训练和生成过程中有效地处理数百帧的长视频以实现长期时间一致性，不仅在简单的迷宫和大型 3D 世界中，而且在真实世界的复杂视频中也优于 SOTA 基准。

Oct, 2022

视频 Transformer 的长短时对比学习

本文提出了一种叫做 “长短时对比学习（LSTCL）” 的学习程序，可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时，学习一个有效的剪辑级表示，并在多项视频基准测试上取得了有竞争力的表现，成为有监督基于图像的预训练的有力替代方案。

Jun, 2021

记忆巩固实现长时视频理解

利用现有的预训练视频 Transformer，并通过简单的微调来重复利用过去激活衍生的非参数化记忆，从而扩展其上下文到过去，以实现对长视频的优秀学习表现。

Feb, 2024

TCR: 基于注意力细化的短视频标题生成及封面选择

本文介绍了一种名为 Short Video Title Generation (SVTG) 的真实数据集，以及一种应用多模态信息的 Title generation and Cover selection with attention Refinement (TCR) 方法，通过对高质量样本和高相关性帧和文本令牌进行精细化训练，该方法在生成标题和选择封面方面优于现有的各种视频字幕方法，并且可以针对真实短视频选择更好的封面。

Apr, 2023

利用时间语境进行视频动作识别

TC-CLIP 是一种改进的视觉语言模型，通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。

Apr, 2024

考拉：关键帧条件化长视频 - LLM

提出了一种轻量级自监督方法，将可学习的时空查询引入预训练模型以适应长视频，通过在 HowTo100M 数据集上进行训练，并在零样本长视频理解基准测试中表现出良好性能。

Apr, 2024