重新审视视频语言理解中的 “视频

CVPRJun, 2022

重新审视视频语言理解中的 “视频

Revisiting the "Video" in Video-Language Understanding

Shyamal Buch, Cristóbal Eyzaguirre, Adrien Gaidon, Jiajun Wu, Li Fei-Fei...

TL;DR通过提出 atemporal probe 模型，本文探讨了视频和语言任务中现有的模型的局限性和潜力，并发现即使在面向较深层次视频理解的基准测试中，理解事件时间通常也不是实现强大或最新技术的性能所必需的。

Abstract

What makes a video task uniquely suited for videos, beyond what can be understood from a single image? Building on recent progress in self-supervised image-language models, we revisit this question in the context of video and language tasks. We propose the atemporal probe (ATP), a new

video-language analysis atemporal probe video-level understanding temporality multimodal models

发现论文，激发创造

ATM：视频问答的动作时间建模

通过动作时间建模（ATM），在视频问答（VideoQA）中引入了对因果 / 时间推理跨帧的问题，并通过重新思考光流的有效性、以行为为中心的对比学习和防止模型在微调阶段给出对洗牌视频的回答来实现了时序推理。实验证明，ATM 在多个 VideoQA 任务的准确性方面优于先前方法，并展示了更好的真实时间推理能力。

Sep, 2023

SPOT！重新审视视频语言模型用于事件理解

利用网络爬取的大规模视频 - 文本对数据作为弱监督，视频理解模型的能力在事件层面的差异中辨别和理解细粒度事件方面仍存在问题，通过提出 SPOT Prober 方法并进行实验证明，通过将操作后的事件描述插入作为难负样本能有效增强模型对事件理解的能力。

Nov, 2023

RTQ：基于图文模型重新思考视频语言理解

我们提出了一种名为 RTQ（Refine，Temporal model 和 Query）的新型框架，同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战，这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是，即使在无视频语言预训练的情况下，我们的模型也表现出色，并且结果与或优于最先进的预训练方法。

Dec, 2023

基于事件理解的视频数据集综述

通过调查 105 个需要事件理解能力的视频数据集，我们考虑它们对视频中鲁棒事件理解研究的贡献，并评估在这一研究领域中提出的视频事件提取任务，提出了基于调查结果的数据集策划和任务构建建议，特别强调视频事件的时间特性和视觉内容的歧义性。

Jun, 2024

使用时间语言定位视频中的瞬间

本文提出了一种新模型，该模型可以明确地推理视频中的不同时间片段，证明了在包括时间语言的短语定位中，时间上下文的重要性，并通过 TEMPO 数据集进行了实验以验证模型可靠性。

Sep, 2018

VITATECS：用于视频语言模型的时间概念理解诊断数据集

通过引入细粒度的自然语言中的时间概念的分类，利用反事实视频描述来解开静态和时间信息之间的相关性，并评估典型的视频语言理解模型，揭示了对于视频语言研究中时间元素的更大重视的需求。

Nov, 2023

时间考验：让视频语言模型具有时间感

本文旨在向已有视频语言模型注入时间感，通过后预训练等方式实现，观察经过处理后的模型在时间感知任务中的性能提升情况，并在六个数据集上进行了零样本评估。

Jan, 2023

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

揭示视频问答的时间背景

本文提出了一个基于循环神经网络的编码器 - 解码器方法，利用双通道排名损失来回答带有时间维度的选择题，同时探讨了 “填空题” 形式的方法来更细致地理解视频内容，并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明，我们的方法显著优于已有的基准模型。

Nov, 2015

通过分离空间 - 时间建模学习视频问答的细粒度视觉理解

该论文提出了一种新的视频 - 语言模型：去耦合的空间 - 时间编码器，通过将图像编码器中的空间模型独立于时间进行编码，将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频 - 语言模型学习视频 QA 中的时间关系以达到更好的视觉理解。

Oct, 2022