空间 - 时间判别滤波器组的动作识别

ICCVAug, 2019

空间 - 时间判别滤波器组的动作识别

Action recognition with spatial-temporal discriminative filter banks

Brais Martinez, Davide Modolo, Yuanjun Xiong, Joseph Tighe

TL;DR本文提出一种改进卷积神经网络 (CNN) 网络的末层以提高动作识别的表征能力，通过对细节的敏感度提升，实现对 Kinetics-400 和 Something-Something-V1 数据集的最优表现。

Abstract

action recognition has seen a dramatic performance improvement in the last few years. Most of the current state-of-the-art literature either aims at improving performance through changes to the backbone cnn network

action recognition cnn network last layers representation capacity fine-grained recognition

发现论文，激发创造

基于 CNN 的时空表示深度分析用于行为识别

本文分析基于 2D 或 3D CNN 的视频动作识别方法，比较这些方法之间的区别和进展，并开发了一个统一框架进行公平比较，发现在动作识别方面取得了显著的提高，但准确性未有进展，探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。

Oct, 2020

基于图像卷积神经网络特征的动作识别

本文介绍一种基于卷积神经网络的层级模型，用于动作识别任务。该模型采用最后一层卷积神经网络的输出特征作为基础，并设计了一个层级结构来捕获视频中的时间变化。同时，作者引入了一种用于提取视频关键帧的方法，从而提高了模型的性能表现。通过在多个动作数据集上的实验结果表明，该方法在动作识别任务上取得了优越的性能表现。

Dec, 2015

动作识别中空间 - 时间卷积的近距离观察

本文研究了几种用于视频分析的时空卷积形式，并研究了它们对动作识别的影响。我们在残差学习的框架下，实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外，我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终，我们设计了一个新的时空卷积块 “R (2+1) D”，这种方法产生的 CNN 的结果与最新技术相当甚至更好，可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。

Nov, 2017

三流网络用于增强动作识别

该论文提出了两种基于 CNN 的体系结构，包括三种流，可以分别捕捉不同速率的空间和时间信息，并使用双向 LSTM 和注意力机制进一步提高模型性能，实现了人类动作识别任务的最先进表现。

Apr, 2021

用于视频动作识别的双流卷积神经网络

本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构，结合了空间和时间网络，利用稀疏光流信息进行训练并使用多任务学习提高模型性能，成功地提高了视频动作识别的准确率。

Jun, 2014

用于 3D 视频中动作识别的双流 RNN/CNN

本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法，通过 SVM 对特征进行分类，实验结果表明，在标准数据集上，该算法提高了 14% 的识别率。

Mar, 2017

重新考虑用于小样本动作识别的时空建模

本篇论文提出了 SloshNet，一个新的框架，重新审视少样本动作识别中的空间时间建模，并自动搜索低级和高级空间特征的最佳组合，同时利用 transformer 技术对全局和局部的时间关系进行建模，实现了对四种数据集的优秀结果。

Jan, 2023

精细动作识别的动态时空专业化学习

该论文提出了一种基于动态时空特化的模块，通过特定神经元的专业化设计实现 fine-grained 行为识别，并使用特化优化算法进一步优化架构，以适应视频中广泛的时空变化，取得了最先进的性能表现。

Sep, 2022

行动识别的长期时间卷积

通过使用长时序卷积神经网络和高质量的光流估计，该研究获得了 UCF101 和 HMDB51 数据集上最先进的人类动作识别结果，具备良好的行为表示和准确性。

Apr, 2016

基于骨架的多粒度时空图神经网络学习用于动作识别

本文提出了一种新的基于骨架的动作分类方法，使用多层次空间时间图网络联合建模粗粒度和细粒度骨架运动模式，并采用双头图网络和跨头部通信策略来提取两个时空分辨率的特征，实验证明该方法在三个大规模数据集上取得了最先进的性能。

Aug, 2021