空间 - 时间判别滤波器组的动作识别
本文分析基于 2D 或 3D CNN 的视频动作识别方法,比较这些方法之间的区别和进展,并开发了一个统一框架进行公平比较,发现在动作识别方面取得了显著的提高,但准确性未有进展,探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。
Oct, 2020
本文介绍一种基于卷积神经网络的层级模型,用于动作识别任务。该模型采用最后一层卷积神经网络的输出特征作为基础,并设计了一个层级结构来捕获视频中的时间变化。同时,作者引入了一种用于提取视频关键帧的方法,从而提高了模型的性能表现。通过在多个动作数据集上的实验结果表明,该方法在动作识别任务上取得了优越的性能表现。
Dec, 2015
本文研究了几种用于视频分析的时空卷积形式,并研究了它们对动作识别的影响。我们在残差学习的框架下,实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外,我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终,我们设计了一个新的时空卷积块 “R (2+1) D”,这种方法产生的 CNN 的结果与最新技术相当甚至更好,可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。
Nov, 2017
该论文提出了两种基于 CNN 的体系结构,包括三种流,可以分别捕捉不同速率的空间和时间信息,并使用双向 LSTM 和注意力机制进一步提高模型性能,实现了人类动作识别任务的最先进表现。
Apr, 2021
本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构,结合了空间和时间网络,利用稀疏光流信息进行训练并使用多任务学习提高模型性能,成功地提高了视频动作识别的准确率。
Jun, 2014
本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法,通过 SVM 对特征进行分类,实验结果表明,在标准数据集上,该算法提高了 14% 的识别率。
Mar, 2017
本篇论文提出了 SloshNet,一个新的框架,重新审视少样本动作识别中的空间时间建模,并自动搜索低级和高级空间特征的最佳组合,同时利用 transformer 技术对全局和局部的时间关系进行建模,实现了对四种数据集的优秀结果。
Jan, 2023
该论文提出了一种基于动态时空特化的模块,通过特定神经元的专业化设计实现 fine-grained 行为识别,并使用特化优化算法进一步优化架构,以适应视频中广泛的时空变化,取得了最先进的性能表现。
Sep, 2022
本文提出了一种新的基于骨架的动作分类方法,使用多层次空间时间图网络联合建模粗粒度和细粒度骨架运动模式,并采用双头图网络和跨头部通信策略来提取两个时空分辨率的特征,实验证明该方法在三个大规模数据集上取得了最先进的性能。
Aug, 2021