我们提出了一种多任务学习模型 ActionFlowNet,将外部光流数据输入到卷积神经网络中,同时训练网络以从原始像素中直接识别动作和估计光流,从而捕捉单个模型中的外观和运动信息,提高动作识别准确率。
Dec, 2016
通过一个 encoder-decoder CNN 和 optical flow 方法,我们的研究为静态图像动作识别提供了一个新方法,即学习一个短期动态先验,在新的静态图像上推断预期的光流,成功地将学习的动作转移至标准的两流网络中,并且在七个数据集上表现出了良好的性能。
Dec, 2017
本研究针对 UCF101 数据集,以光流算法数据作为神经网络的输入,研究了不同光流算法和输入变换条件对人体动作识别的影响,通过精细调整光流算法,对比分析得出一些重要结论,特别是对 EPE 作为一个目标的颠覆,证明了更好的训练方法提高了人体动作识别的性能。
通过用运动矢量直接代替计算光流来加速双流架构,然后通过初始化转移、监督转移和它们的组合,将光流 CNN 中学习的知识转移到运动矢量 CNN 中,以提高后者的性能。实验结果表明,该方法的识别性能可与最先进的方法相媲美,同时处理速度比原始的双流方法快 27 倍。
Apr, 2016
本文提出一种基于无监督学习的预测 - 校正方案,通过 PDE 约束的光学流预测器给出速度场的估计,并通过基于物理的校正器进行精细化处理,取得了比光学流方法更好的效果,在基准数据集上表现出与现有监督学习方法具有竞争力的结果。
Jun, 2022
本文针对实时动作识别应用,提出了一种新的运动线索 —— 外观持续性(PA),它通过局部像素差异累加而不是大量的运动向量搜索来提取动作信息,并基于 PA 提出了一种新的全局时间融合方案 —— 各时间尺度汇聚池化(VAP),从而构建了一个统一的框架 —— 持续外观网络(PAN),该方法在 6 个挑战性动作识别基准测试中表现出优异的动态建模能力。
Aug, 2020
本文提出了一种卷积层,它能够学习动作表示,我们称之为表示流层,它是一种完全可微分的层,能够捕捉卷积神经网络中任何表示通道的 “流动”,通过迭代流优化过程学习参数,并与其他 CNN 模型参数一起最大化动作识别性能。我们还引入了多个表示流层学习 “流之流” 表示的概念,并通过广泛的实验评估,证实了其优于使用传统光流的先前识别模型在计算速度和性能方面的优势。
Oct, 2018
该研究提出一种轻型的生成网络,用于提高压缩视频中噪声较多的运动向量的信噪比和准确性,从而实现更具有辨别力的运动提示 (DMC) 表示,并在行动识别任务中进行了联合训练,从而接近于光流使用的高精度;该方法在三个行动识别数据集上进行了广泛的评估,并证实了其有效性。
Jan, 2019
本文提出了一种用于视频动作识别的两流光流引导卷积注意网络模型,通过正确补偿相机运动,可以用光流来引导关注人类前景,从而防止背景干扰,得到了良好的性能表现。
Aug, 2017
本文介绍了一种使用运动块的 MFNet 网络,可以捕捉序列帧之间的时空信息,提高动作识别的性能,且可将其附加到现有的 CNN 框架中。通过在 Jester 和 Something-Something 两个数据集上训练,得到了有竞争力的表现。
Jul, 2018