通过分离空间 - 时间建模学习视频问答的细粒度视觉理解

Oct, 2022

通过分离空间 - 时间建模学习视频问答的细粒度视觉理解

Learning Fine-Grained Visual Understanding for Video Question Answering via Decoupling Spatial-Temporal Modeling

Hsin-Ying Lee, Hung-Ting Su, Bing-Chen Tsai, Tsung-Han Wu, Jia-Fong Yeh...

TL;DR该论文提出了一种新的视频 - 语言模型：去耦合的空间 - 时间编码器，通过将图像编码器中的空间模型独立于时间进行编码，将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频 - 语言模型学习视频 QA 中的时间关系以达到更好的视觉理解。

Abstract

While recent large-scale video-language pre-training made great progress in video question answering, the design of spatial modeling of video-language models is less fine-grained than that of image-language models; existing practices of →

video-language modeling spatial modeling temporal modeling pre-training objective visual understanding

发现论文，激发创造

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

基于语音查询的视频角色空间 - 时间协同建模分割

本文提出了一种基于协作的时空编码器 - 解码器框架，其中包含一个三维时间编码器和一个二维空间编码器。在解码器中，提出了一种语言引导的特征选择模块和一种交叉模态适应调制模块，以动态重新组合语言特征和时空相关特征。与以往的方法相比，我们的方法在两个流行的基准测试中实现了新的最先进性能，并且计算开销更小。

May, 2021

高效图像到视频迁移学习的空间和时间解耦

DiST 是一种双编码器结构，其中预训练的基础模型充当空间编码器，引入了轻量级网络作为时间编码器，通过插入一个集成分支来融合时空信息，从而实现了视频的空间和时间解耦学习，提高了性能表现。

Sep, 2023

RTQ：基于图文模型重新思考视频语言理解

我们提出了一种名为 RTQ（Refine，Temporal model 和 Query）的新型框架，同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战，这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是，即使在无视频语言预训练的情况下，我们的模型也表现出色，并且结果与或优于最先进的预训练方法。

Dec, 2023

揭示视频问答的时间背景

本文提出了一个基于循环神经网络的编码器 - 解码器方法，利用双通道排名损失来回答带有时间维度的选择题，同时探讨了 “填空题” 形式的方法来更细致地理解视频内容，并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明，我们的方法显著优于已有的基准模型。

Nov, 2015

加强视频语言表示的结构时空对齐

通过精细化的结构化时空对齐学习方法（Finsta），将输入的文本和视频以细粒度场景图（SG）结构表示，进而统一为整体性 SG（HSG），从而加强语义和时序的视频 - 语言对齐，提高大规模视频 - 语言模型（VLMs）在各种下游任务中的性能。

Jun, 2024

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022

层次化解耦空间 - 时间对比用于自监督视频表征学习

提出一种新的自监督视频表示学习技术，通过将学习目标分解为两个对比子任务并分层进行，强调空间和时间特征，从而鼓励多尺度理解。通过实验表明，可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义，并提出一种方式，使模型可以在多个尺度上分别捕捉空间和时间特征。还介绍了一种克服不同层次上实例不变性差异的方法。将代码公开。

Nov, 2020

TGIF-QA：关于视觉问答中时空推理的研究

本文提出了三个特别设计用于视频 VQA 的新任务，推出一个新的大型数据集 TGIF-QA，并提出了一种利用空间和时间关注的双 LSTM 方法，证明其在经验评估中的有效性。

Apr, 2017

TVQA+: 视频问答的时空引用

该研究针对视频问答这一任务，提出增加 bounding boxes 数据集，以此为基础构建了 STAGE 框架，在空间和时间域上对视频进行处理，以便回答关于视频的自然语言问题，并展示了实验结果和可视化。

Apr, 2019