行动识别的长期时间卷积

Apr, 2016

Long-term Temporal Convolutions for Action Recognition

Gül Varol, Ivan Laptev, Cordelia Schmid

TL;DR通过使用长时序卷积神经网络和高质量的光流估计，该研究获得了 UCF101 和 HMDB51 数据集上最先进的人类动作识别结果，具备良好的行为表示和准确性。

Abstract

Typical human actions last several seconds and exhibit characteristic spatio-temporal structure. Recent methods attempt to capture this structure and learn action representations with convolutional neural networks

action recognition spatio-temporal structure neural networks long-term temporal convolutions optical flow estimation

发现论文，激发创造

基于格子长短期记忆的人类动作识别

L2STM 是一种通过学习独立的隐藏状态转移来增强模型的时间动力学建模能力以及解决长期时间动态不稳定的问题的方法，结合多模态训练程序，在人类动作识别方面表现优于现有的基于 LSTM 和 / 或 CNN 的方法。

Aug, 2017

用于动作分割和检测的时序卷积网络

介绍了一种新的 Temporal Convolutional Networks 模型，可用于对视频中动作的细粒度分割和检测，具有高效性和良好的表现。

Nov, 2016

视频数据中人类行为识别的深度学习方法

通过对深度学习模型的全面分析，这项研究揭示了卷积神经网络、循环神经网络和两流卷积神经网络在人体动作识别中的优势和性能差异，并强调了综合模型在实现强大的人体动作识别方面的潜力和优化的研究方向。

Mar, 2024

时序卷积网络：行动分割的统一方法

提出了一种统一的时间卷积网络方法，可以逐层捕捉低、中、高层次时间尺度上的关系，在三个公共操作分割数据集上以视频或传感器数据实现了优越或竞争性能，并且可以在较短时间内训练完成。

Aug, 2016

可解释的基于时态卷积网络的 3D 人体动作分析

本文提出了一种使用新型解释性模型 TCN 进行 3D 人体动作识别任务的方法 Res-TCN，并在最大的 3D 人体动作识别数据集 NTU-RGBD 上取得了最新的成果。

Apr, 2017

基于时间金字塔池化的卷积神经网络用于动作识别

该论文提出了一种新的网络结构，可以允许任意数量的帧作为网络输入，并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题，实验结果表明该方法在使用更少的训练数据时能超越同类方法。

Mar, 2015

动作识别中空间 - 时间卷积的近距离观察

本文研究了几种用于视频分析的时空卷积形式，并研究了它们对动作识别的影响。我们在残差学习的框架下，实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外，我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终，我们设计了一个新的时空卷积块 “R (2+1) D”，这种方法产生的 CNN 的结果与最新技术相当甚至更好，可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。

Nov, 2017

使用深度学习方法和单帧 CNN 及卷积 LSTM 进行人类活动识别

本文探讨了基于深度学习的两种方法 —— 单帧卷积神经网络和卷积长短时记忆，以实现从视频中识别人类行为，同时在 UCF50 数据集和实验数据集上对两个模型进行了评估，结果表明单帧 CNN 模型的准确性优于卷积 LSTM 模型。

Apr, 2023

时序段网络：深度动作识别的良好实践

本文提出了一种新的视频动作识别框架 - TSN，并探究了在时间段网络的帮助下学习 ConvNet 模型的一系列良好实践策略。实验结果表明，本方法在 HMDB51（69.4%）和 UCF101（94.2%）数据集上取得了最先进的性能。我们还可视化了学习到的 ConvNet 模型，定性展示了时间段网络和所提出良好实践的有效性。

Aug, 2016

基于卷积双流网络融合的视频动作识别

为了最好地利用时空信息，我们研究了在空间和时间上融合 ConvNet 塔的多种方法，并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构，以融合视频片段的空时信息，并在标准基准测试中评估了其性能，该架构达到了最先进的结果。

Apr, 2016