ATM：视频问答的动作时间建模

Sep, 2023

ATM: Action Temporality Modeling for Video Question Answering

Junwen Chen, Jie Zhu, Yu Kong

TL;DR通过动作时间建模（ATM），在视频问答（VideoQA）中引入了对因果 / 时间推理跨帧的问题，并通过重新思考光流的有效性、以行为为中心的对比学习和防止模型在微调阶段给出对洗牌视频的回答来实现了时序推理。实验证明，ATM 在多个 VideoQA 任务的准确性方面优于先前方法，并展示了更好的真实时间推理能力。

Abstract

Despite significant progress in video question answering (VideoQA), existing methods fall short of questions that require causal/temporal reasoning across frames. This can be attributed to imprecise motion representations. We introduce →

video question answering temporality reasoning action temporality modeling optical flow contrastive learning

发现论文，激发创造

重新审视视频语言理解中的 “视频

通过提出 atemporal probe 模型，本文探讨了视频和语言任务中现有的模型的局限性和潜力，并发现即使在面向较深层次视频理解的基准测试中，理解事件时间通常也不是实现强大或最新技术的性能所必需的。

Jun, 2022

NExT-QA：问答到解释时间动作的下一阶段

介绍了 NExT-QA，它是一个具有严谨设计的视频问答基准，旨在将视频理解从描述转化为解释时间动作；通过分析基线和现有的视频问答技术，发现表现最好的方法擅长浅层场景描述，但在因果和时间动作推理方面较弱。通过详细结果和启发式观察，希望 NExT-QA 能引导下一代视频问答研究超越表面的场景描述，实现对视频更深入的理解。

May, 2021

揭示视频问答的时间背景

本文提出了一个基于循环神经网络的编码器 - 解码器方法，利用双通道排名损失来回答带有时间维度的选择题，同时探讨了 “填空题” 形式的方法来更细致地理解视频内容，并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明，我们的方法显著优于已有的基准模型。

Nov, 2015

用于行为识别的异步时间场

提出了一种基于完全连接的时间条件随机场模型，用于推理各个活动方面，包括对象、动作和意图，其中潜在函数由深层网络预测；而异步变分推理方法使得高效的端到端训练成为可能，该方法在 Charades 基准测试中达到了 22.4％的分类 mAP，超过了现有技术 (17.2％mAP)。

Dec, 2016

针对视频的弱监督时间动作定位的查询 - 键注意力建模

本文提出了一种名为 VQK-Net 的网络，它采用了视频特异性的查询 - 键（query-key）注意力建模，通过学习每个输入视频每个动作类别的唯一查询来检测目标视频中的相应动作并定位，从而实现弱监督的时间动作定位，并在 THUMOS14，ActivityNet1.2 和 ActivityNet1.3 三个数据集上获得了最先进的性能结果。

May, 2023

时间查询网络用于细粒度视频理解

本文介绍了一种基于 Temporal Query Network 的时空查询机制，通过稠密采样与随机特征库更新方式实现了对细粒度行为的分类，最终在 FineGym 和 Diving48 的数据集上达到了当前最佳效果。

Apr, 2021

运动 - 外观联合记忆网络用于视频问答

提出了一种基于运动 - 外观共现记忆网络的视频问答方法，采用动态记忆网络和新机制，在长序列中推断不同问题所需的帧数，利用多级上下文事实构建时间表示，并在 TGIF-QA 数据集上表现出明显优越性。

Mar, 2018

Vamos: 视频理解的多功能行为模型

在研究中，我们提出了一种基于大型语言模型的学习框架，使用视频中提取的动作标签和自由形式的描述作为输入，证明了基于文本的视频表示在语言模型时代具有竞争力的表现，并在多个基准测试中取得了最先进的性能。

Nov, 2023

探索视频动作识别中的可解释性

我们提出了一个用于研究动作识别假设并定量测试的框架，从而推进视频动作识别中深度神经网络的可解释性研究。

Apr, 2024

简单算术运算对于时间建模有何作用？

通过计算加法、减法、乘法和除法等四种算术运算，提取帧特征产生辅助时间线索，利用这些线索从原时间无关域中提取对应特征，从而实现简化的时间建模。我们的研究表明，这种算术时间模块 (ATM) 在低计算成本下提供了强大的时间建模能力，并且与基于 CNNs 和 ViTs 的架构兼容，在几个常见视频基准测试上取得了优越的性能。

Jul, 2023