Dec, 2023

文本条件下的长篇视频理解的重新采样器

TL;DR使用文本条件的视频重采样器(TCR)模块和预训练的视觉编码器和大型语言模型(LLM),我们设计了一种基于 Transformer 的采样架构,可以处理长视频序列,并通过交叉注意机制,将相关的视觉特征从视频中提取出来,并通过 LLM 生成文本响应。我们的方法在各种评估任务中表现出很好的效果,并在 NextQA、EgoSchema 和 EGO4D-LTA 挑战赛中创造了最新的最好成绩,我们还发现了需要较长视频上下文的任务,可以有效地用于进一步评估长程视频模型。