结构分段网络在时间动作检测中的应用

ICCVApr, 2017

结构分段网络在时间动作检测中的应用

Temporal Action Detection with Structured Segment Networks

Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang...

TL;DR本文提出了一种基于结构化分割网络 (SSN) 的新型框架，该框架可以通过一个结构化的时间金字塔模型来建模每个动作实例的时间结构，并通过划分的判别模型有效地区分正面提议和背景或不完整的提议，在 THUMOS14 和 ActivityNet 数据集上表现优于现有方法。

Abstract

Detecting actions in untrimmed videos is an important yet challenging task. In this paper, we present the structured segment network (ssn), a novel framework which models the →

structured segment network temporal structure action recognition temporal action proposal ssn

发现论文，激发创造

视频中的动作识别时间分段网络

该论文提出了一种称之为 “时间段网络” 的视频级框架，可以学习视频中的动作模型，并在四个具有挑战性的动作识别基准测试中实现了最新的性能。

May, 2017

时序段网络：深度动作识别的良好实践

本文提出了一种新的视频动作识别框架 - TSN，并探究了在时间段网络的帮助下学习 ConvNet 模型的一系列良好实践策略。实验结果表明，本方法在 HMDB51（69.4%）和 UCF101（94.2%）数据集上取得了最先进的性能。我们还可视化了学习到的 ConvNet 模型，定性展示了时间段网络和所提出良好实践的有效性。

Aug, 2016

单次拍摄时间动作检测中解耦定位和分类

本研究提出一种新的解决视频时序动作检测单级方案的方法 - Decoupled Single Shot temporal Action Detection (Decouple-SSAD)，通过在并行中设计两个单独的分支来实现定位和分类的解耦，从而提高训练效果。该方法在 THUMOS14 数据集上进行了广泛实验，证明了其优越性能。

Apr, 2019

单次拍摄的时间动作检测

该研究提出了一种基于 1D 时间卷积层的单次动作检测器（SSAD）网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中，它探讨了输入特征类型和融合策略，并在两个具有挑战性的数据集上进行了广泛的实验，证明了在 THUMOS 2014 和 MEXaction2 的评估过程中，SSAD 的 mAP 比其他最先进的系统增加了很多。

Oct, 2017

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

探索框架分割网络用于时间行为定位

本研究提出了一种基于帧分割网络（FSN）的方法，通过在 2D 空间 CNN 上放置时间 CNN，利用时空上下文信息通过帧级密集预测，实现对视频剪辑的精确定位，该方法可在弱监督场景下使用，实现了优越的帧级动作定位和时间上的动作定位。

Feb, 2019

多级时空金字塔网络用于动作检测

本文提出多级时间金字塔网络（MLTPN）方法，采用多级特征金字塔结构和特征融合模块提高时域动作检测的准确性，在 THUMOS'14 数据集上取得了显著的高于先前最先进的方法的表现。

Aug, 2020

基于时序分离结构的弱监督多动作检测循环网络

本文提出了一种 STAR 网络，用于弱监督多个动作的检测，借助于注意力机制聚合视频片段并使用改进的循环神经网络建立动作之间的时间关系。同时，使用 ST-GradCAM 来生成更精确的时间提案，实验表明本方法在 THUMOS'14 和 ActivityNet1.3 数据集上性能优于现有的弱监督方法，并与全监督方法性能相当。

Nov, 2018

时序卷积网络：行动分割的统一方法

提出了一种统一的时间卷积网络方法，可以逐层捕捉低、中、高层次时间尺度上的关系，在三个公共操作分割数据集上以视频或传感器数据实现了优越或竞争性能，并且可以在较短时间内训练完成。

Aug, 2016

使用多阶段 CNN 在未修剪的视频中进行时间动作定位

本研究提出了一种基于三种分段 3D 卷积神经网络的方法，用于解决未经修剪的长视频中的时间动作定位问题，其中提出网络用于识别可能包含动作的候选段，分类网络以一对多动作分类模型进行学习以作为定位网络的初始化，用于定位每个动作实例。

Jan, 2016