基于时空残差网络的视频动作识别

NIPSNov, 2016

基于时空残差网络的视频动作识别

Spatiotemporal Residual Networks for Video Action Recognition

Christoph Feichtenhofer, Axel Pinz, Richard P. Wildes

TL;DR本文介绍了一种新的结构 spatiotemporal ResNets，将两种架构 two-stream Convolutional Networks 和 Residual Networks 相结合，通过残差连接实现了空时交互，并引入可学习卷积过滤器，将图像 ConvNets 转换成空时网络，从而提高了动作识别的准确率。

Abstract

two-stream convolutional networks (ConvNets) have shown strong performance for human action recognition in videos. Recently, residual networks

two-stream convolutional networks residual networks spatiotemporal resnets action recognition end-to-end

发现论文，激发创造

利用时空动态进行活动识别的 TS-LSTM 和 Temporal-Inception

本研究介绍了一种基于 ResNet-101 的两个强大的基线二流卷积神经网络，并比较分析了使用循环神经网络和 Temporal-ConvNets 来提取时空特征的方法。研究得出，在 UCF101 和 HMDB51 数据集上的实验结果表明，使用 LSTM 和 Temporal-ConvNets 处理时空特征矩阵可以提高总体性能，并发现了每种方法的特定局限性，可作为未来研究的基础。

Mar, 2017

基于卷积双流网络融合的视频动作识别

为了最好地利用时空信息，我们研究了在空间和时间上融合 ConvNet 塔的多种方法，并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构，以融合视频片段的空时信息，并在标准基准测试中评估了其性能，该架构达到了最先进的结果。

Apr, 2016

使用 3D 残差网络学习时空特征用于动作识别

通过使用 Residual Networks 的 3D CNN，我们训练了一个视频动作识别模型，并实验表明在 Kinetics 数据集上它具有更好的性能，虽然参数很大但没有出现过拟合的问题

Aug, 2017

用于视频动作识别的双流卷积神经网络

本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构，结合了空间和时间网络，利用稀疏光流信息进行训练并使用多任务学习提高模型性能，成功地提高了视频动作识别的准确率。

Jun, 2014

视频动作识别的时空金字塔网络

提出了一种新的空时金字塔网络，将空间和时间特征以金字塔结构融合，从而加强彼此。使用紧凑的双线性运算符实现高效训练的双线性融合操作，最终网络在标准视频数据集上取得了最先进的结果。

Mar, 2019

卷积神经网络结构搜索用于时空特征学习

基于 ImageNet 预训练的 ConvNets 在图像识别方面已经得到了证明，但是为了捕捉到运动模式，仍然需要专门的时空特征学习，本文提出了一种经验 ConvNet 架构搜索方法，通过 3D 残差 ConvNet 实现，其在 Sports-1M、UCF101、HMDB51、THUMOS14 和 ASLAN 上的表现均优于 C3D，且推断时间减少一半、模型大小减小一半，具有更紧凑的表现形式。

Aug, 2017

动作识别中空间 - 时间卷积的近距离观察

本文研究了几种用于视频分析的时空卷积形式，并研究了它们对动作识别的影响。我们在残差学习的框架下，实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外，我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终，我们设计了一个新的时空卷积块 “R (2+1) D”，这种方法产生的 CNN 的结果与最新技术相当甚至更好，可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。

Nov, 2017

超越静态图像：稳健的多流时空网络

通过多流模型，我们引入一个经过视频训练的模型，并评估其在各种图像和视频输入下的鲁棒性，特别关注时间特征在不变识别中的作用。结果表明，在训练中包含视频和时间流能够抑制图像和视频理解任务中准确性和平均准确率（mAP）下降分别约 1.36％和 3.14％。

Nov, 2023

使用伪 3D 残差网络学习时空表示

本文提出了一种利用 4 个 Pseudo-3D 残差块构建的 Pseudo-3D Residual Net (P3D ResNet) 架构，并将其应用于视频分类问题中，克服了 3D CNN 的计算成本及内存需求高的问题，通过将空间卷积和时间卷积组合的方式显著提高了视频图像识别和分类的准确性。

Nov, 2017

StNet：行动识别的局部和全局空时建模

本文提出了一种新的空时网络（StNet）架构来进行局部和全局的空时建模，通过将 N 个连续的视频帧堆叠成一个超级图像，并对超级图像应用二维卷积来捕获局部空时关系，再对局部空时特征映射应用时间卷积来建模全局空时关系，该方法在动作识别方面优于现有技术，也在模型复杂度和准确度之间取得了理想的平衡，实验结果表明该方法可以广泛应用于视频表示的学习。

Nov, 2018