时间查询网络用于细粒度视频理解

CVPRApr, 2021

时间查询网络用于细粒度视频理解

Temporal Query Networks for Fine-grained Video Understanding

Chuhan Zhang, Ankush Gupta, Andrew Zisserman

TL;DR本文介绍了一种基于 Temporal Query Network 的时空查询机制，通过稠密采样与随机特征库更新方式实现了对细粒度行为的分类，最终在 FineGym 和 Diving48 的数据集上达到了当前最佳效果。

Abstract

Our objective in this work is fine-grained classification of actions in untrimmed videos, where the actions may be temporally extended or may span only a few frames of the video. We cast this into a query-response mechanism, where each query addresses a particular question, and has its own response label set. We make the following four contributions: (I) We

fine-grained action classification temporal query network stochastic feature bank update dense sampling state-of-the-art

发现论文，激发创造

针对视频的弱监督时间动作定位的查询 - 键注意力建模

本文提出了一种名为 VQK-Net 的网络，它采用了视频特异性的查询 - 键（query-key）注意力建模，通过学习每个输入视频每个动作类别的唯一查询来检测目标视频中的相应动作并定位，从而实现弱监督的时间动作定位，并在 THUMOS14，ActivityNet1.2 和 ActivityNet1.3 三个数据集上获得了最先进的性能结果。

May, 2023

面向高效视频识别的时间显著性查询网络

提出一种新的时序显著性查询机制，引入类别特定信息为显著性测量提供精细线索，并在 TSQNet 中实现了两种检索机制和跨模态交互，从而解决现有技术对类别的不确定性和上下文缺失等问题，并在 ActivityNet，FCVID 和 Mini-Kinetics 数据集上获得了最好的成果。

Jul, 2022

通过从网络图像的域转移，在视频中对细粒度动作进行时间本地化

本研究采用弱监督和跨领域转移学习的方法，结合深度卷积神经网络和长短时记忆网络，实现从未剪辑的网络视频中，对于精细的动作定位识别，并使用大量的数据集如 FGA-240 和 THUMOS 2014，得到了令人信服的结果。

Apr, 2015

用于动作分割和检测的时序卷积网络

介绍了一种新的 Temporal Convolutional Networks 模型，可用于对视频中动作的细粒度分割和检测，具有高效性和良好的表现。

Nov, 2016

视频中的时间活动检测粗细网络

介绍了 Coarse-Fine Networks 模型，利用不同抽象层次的时间分辨率学习更好的视频表示，提出 Grid Pool 和 Multi-stage Fusion 算法，成功降低了计算和内存需求，且超越了 Charades 数据集中的行动检测 state-of-the-art 性能。

Mar, 2021

视频中的动作识别时间分段网络

该论文提出了一种称之为 “时间段网络” 的视频级框架，可以学习视频中的动作模型，并在四个具有挑战性的动作识别基准测试中实现了最新的性能。

May, 2017

时序段网络：深度动作识别的良好实践

本文提出了一种新的视频动作识别框架 - TSN，并探究了在时间段网络的帮助下学习 ConvNet 模型的一系列良好实践策略。实验结果表明，本方法在 HMDB51（69.4%）和 UCF101（94.2%）数据集上取得了最先进的性能。我们还可视化了学习到的 ConvNet 模型，定性展示了时间段网络和所提出良好实践的有效性。

Aug, 2016

视频中时间语言定位的细粒度迭代注意力网络

本文提出了一种基于 Fine-grained Iterative Attention Network (FIAN) 的跨模态时间语言定位方法，该方法采用内容定向定位策略而非现有的基于 Anchor 的方法，并在多个公开基准测试中表现出优异的性能。

Aug, 2020

时序卷积网络：行动分割的统一方法

提出了一种统一的时间卷积网络方法，可以逐层捕捉低、中、高层次时间尺度上的关系，在三个公共操作分割数据集上以视频或传感器数据实现了优越或竞争性能，并且可以在较短时间内训练完成。

Aug, 2016

通过分离空间 - 时间建模学习视频问答的细粒度视觉理解

该论文提出了一种新的视频 - 语言模型：去耦合的空间 - 时间编码器，通过将图像编码器中的空间模型独立于时间进行编码，将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频 - 语言模型学习视频 QA 中的时间关系以达到更好的视觉理解。

Oct, 2022