光流序列的有序池化用于动作识别
我们提出了一种多任务学习模型 ActionFlowNet,将外部光流数据输入到卷积神经网络中,同时训练网络以从原始像素中直接识别动作和估计光流,从而捕捉单个模型中的外观和运动信息,提高动作识别准确率。
Dec, 2016
本文提出了一种基于 RGB-D 数据的场景流用于动作识别的方法,它通过提取特征来从一开始就进行动作识别,并采用有效的自校准方法来对齐 RGB 和深度数据,再根据场景流向量提出一种新的表示法 SFAM,实验表明它的识别效果优于现有的方法。
Feb, 2017
本文提出了一种卷积层,它能够学习动作表示,我们称之为表示流层,它是一种完全可微分的层,能够捕捉卷积神经网络中任何表示通道的 “流动”,通过迭代流优化过程学习参数,并与其他 CNN 模型参数一起最大化动作识别性能。我们还引入了多个表示流层学习 “流之流” 表示的概念,并通过广泛的实验评估,证实了其优于使用传统光流的先前识别模型在计算速度和性能方面的优势。
Oct, 2018
本文介绍了动态图像的概念,它是一种新型的紧凑表示方法,可用于视频分析,特别是与卷积神经网络(CNNs)相结合。它允许将任何视频转换为图片,从而可以立即将现有的针对静态图像分析的 CNN 模型扩展到视频,并在动作识别等标准基准测试中实现了最先进的性能。
Dec, 2016
本文提出了一种使用残差帧来提取运动特征的快速且有效的方法,通过将 RGB 帧替换为残差帧,从而取得了在 UCF101 和 HMDB51 数据集上 20.5% 和 12.5% 的准确率提升,在三个基准数据集上,我们的两步解决方案达到了比那些使用额外的光流方法更好或相当的性能,特别是在 Mini-kinetics 数据集上表现优异,表明残差帧是提取运动特征的良好补充。
Jan, 2020
该论文提出了一种新的网络结构,可以允许任意数量的帧作为网络输入,并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题,实验结果表明该方法在使用更少的训练数据时能超越同类方法。
Mar, 2015
本文介绍了一种使用运动块的 MFNet 网络,可以捕捉序列帧之间的时空信息,提高动作识别的性能,且可将其附加到现有的 CNN 框架中。通过在 Jester 和 Something-Something 两个数据集上训练,得到了有竞争力的表现。
Jul, 2018
通过用运动矢量直接代替计算光流来加速双流架构,然后通过初始化转移、监督转移和它们的组合,将光流 CNN 中学习的知识转移到运动矢量 CNN 中,以提高后者的性能。实验结果表明,该方法的识别性能可与最先进的方法相媲美,同时处理速度比原始的双流方法快 27 倍。
Apr, 2016
本文提出了一种用于视频动作识别的两流光流引导卷积注意网络模型,通过正确补偿相机运动,可以用光流来引导关注人类前景,从而防止背景干扰,得到了良好的性能表现。
Aug, 2017
本文提出了一种卷积神经网络用于从视频中提取密集的光流,旨在为深度架构构建潜在的模块,以允许在视频中使用运动而无需借助外部算法,通过考虑信号处理原则构建网络结构,强制 “旋转不变性”,并提供一种分布式表示运动的方法。
Jan, 2016