基于卷积双流网络融合的视频动作识别

CVPRApr, 2016

基于卷积双流网络融合的视频动作识别

Convolutional Two-Stream Network Fusion for Video Action Recognition

Christoph Feichtenhofer, Axel Pinz, Andrew Zisserman

TL;DR为了最好地利用时空信息，我们研究了在空间和时间上融合 ConvNet 塔的多种方法，并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构，以融合视频片段的空时信息，并在标准基准测试中评估了其性能，该架构达到了最先进的结果。

Abstract

Recent applications of convolutional neural networks (ConvNets) for human action recognition in videos have proposed different solutions for incorporating the appearance and motion information. We study a number of ways of fusing ConvNet towers both spatially and temporally in order to

convolutional neural networks human action recognition spatio-temporal information fusion performance

发现论文，激发创造

视频动作识别的时空金字塔网络

提出了一种新的空时金字塔网络，将空间和时间特征以金字塔结构融合，从而加强彼此。使用紧凑的双线性运算符实现高效训练的双线性融合操作，最终网络在标准视频数据集上取得了最先进的结果。

Mar, 2019

用于视频动作识别的双流卷积神经网络

本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构，结合了空间和时间网络，利用稀疏光流信息进行训练并使用多任务学习提高模型性能，成功地提高了视频动作识别的准确率。

Jun, 2014

3D CNN 中的时空融合：基于概率视角的探讨

本研究提出将时空融合策略转换为概率空间，并在此基础上生成新的时空融合策略，从而实现对各种融合策略的网络级评估，以及获得关于时空融合的层级偏好的细粒度数值信息。该方法显著提高了时空融合的分析效率，并在四个著名的行动识别数据集上取得了最先进的性能。

Apr, 2020

Two Stream LSTM：人类动作识别的深度融合框架

本文主要介绍了基于卷积神经网络和 LSTM 神经网络的动作识别方法，实验证明本文提出的多流融合模型可以有效地提高识别准确率。

Apr, 2017

基于时空残差网络的视频动作识别

本文介绍了一种新的结构 spatiotemporal ResNets，将两种架构 two-stream Convolutional Networks 和 Residual Networks 相结合，通过残差连接实现了空时交互，并引入可学习卷积过滤器，将图像 ConvNets 转换成空时网络，从而提高了动作识别的准确率。

Nov, 2016

动作识别中空间 - 时间卷积的近距离观察

本文研究了几种用于视频分析的时空卷积形式，并研究了它们对动作识别的影响。我们在残差学习的框架下，实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外，我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终，我们设计了一个新的时空卷积块 “R (2+1) D”，这种方法产生的 CNN 的结果与最新技术相当甚至更好，可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。

Nov, 2017

基于骨骼的动作识别的双流三维卷积神经网络

本文利用 3D CNN 提取基于骨架的动作识别的时空信息与深度特征，探讨其与 RNN 的互补性和噪声下的鲁棒性，并在 SmartHome 数据集和 NTU RGB-D 数据集上获得优异的表现。

May, 2017

利用时空动态进行活动识别的 TS-LSTM 和 Temporal-Inception

本研究介绍了一种基于 ResNet-101 的两个强大的基线二流卷积神经网络，并比较分析了使用循环神经网络和 Temporal-ConvNets 来提取时空特征的方法。研究得出，在 UCF101 和 HMDB51 数据集上的实验结果表明，使用 LSTM 和 Temporal-ConvNets 处理时空特征矩阵可以提高总体性能，并发现了每种方法的特定局限性，可作为未来研究的基础。

Mar, 2017

基于时间金字塔池化的卷积神经网络用于动作识别

该论文提出了一种新的网络结构，可以允许任意数量的帧作为网络输入，并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题，实验结果表明该方法在使用更少的训练数据时能超越同类方法。

Mar, 2015

视频分类的混合深度学习框架中建模时空线索

本文提出了一种混合式深度学习框架，旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模，并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验，结果表明该框架相对于传统策略具有更高的性能.

Apr, 2015