本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构,结合了空间和时间网络,利用稀疏光流信息进行训练并使用多任务学习提高模型性能,成功地提高了视频动作识别的准确率。
Jun, 2014
本文提出了一种新的卷积神经网络结构,名为隐式双流卷积神经网络。它可以以端到端的方式处理视频帧并预测动作类别,而不需要显式计算光流,因此速度快于传统方法。实验证明,该方法在四个具有挑战性的动作识别数据集中表现显著优于上一个最佳的实时方法。
Apr, 2017
本文提出一种基于新层的双流动作检测网络,将 RGB 和光流嵌入到单个双合一流网络中,使用运动条件层从流图像中提取运动信息,然后利用运动调制层生成调制 RGB 特征的变换参数,从而提高检测准确性。
Apr, 2019
我们提出了一种多任务学习模型 ActionFlowNet,将外部光流数据输入到卷积神经网络中,同时训练网络以从原始像素中直接识别动作和估计光流,从而捕捉单个模型中的外观和运动信息,提高动作识别准确率。
Dec, 2016
为了最好地利用时空信息,我们研究了在空间和时间上融合 ConvNet 塔的多种方法,并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构,以融合视频片段的空时信息,并在标准基准测试中评估了其性能,该架构达到了最先进的结果。
Apr, 2016
本文提出了一个基于 C3D 神经网络的双流框架,引入了 3D 中心差分卷积操作,能够在小数据集上从零开始训练模型并取得良好的结果,同时在 ECCV 2020 VIPriors 竞赛中获得第二名(88.31%)。
Aug, 2020
通过利用多模态视频数据,并提出使用两种方法来识别人类行为,包括使用卷积模型处理姿势流,由可调节关注机制控制图片流,最后经过 LSTM 神经网络对不同姿态下的处理进行特征提取,能够在多数据集上大幅度的提高人类行为识别的效果。
Mar, 2017
本文提出了一种卷积层,它能够学习动作表示,我们称之为表示流层,它是一种完全可微分的层,能够捕捉卷积神经网络中任何表示通道的 “流动”,通过迭代流优化过程学习参数,并与其他 CNN 模型参数一起最大化动作识别性能。我们还引入了多个表示流层学习 “流之流” 表示的概念,并通过广泛的实验评估,证实了其优于使用传统光流的先前识别模型在计算速度和性能方面的优势。
Oct, 2018
该论文提出了两种基于 CNN 的体系结构,包括三种流,可以分别捕捉不同速率的空间和时间信息,并使用双向 LSTM 和注意力机制进一步提高模型性能,实现了人类动作识别任务的最先进表现。
Apr, 2021
本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法,通过 SVM 对特征进行分类,实验结果表明,在标准数据集上,该算法提高了 14% 的识别率。