行动识别的长期时间卷积
L2STM 是一种通过学习独立的隐藏状态转移来增强模型的时间动力学建模能力以及解决长期时间动态不稳定的问题的方法,结合多模态训练程序,在人类动作识别方面表现优于现有的基于 LSTM 和 / 或 CNN 的方法。
Aug, 2017
通过对深度学习模型的全面分析,这项研究揭示了卷积神经网络、循环神经网络和两流卷积神经网络在人体动作识别中的优势和性能差异,并强调了综合模型在实现强大的人体动作识别方面的潜力和优化的研究方向。
Mar, 2024
提出了一种统一的时间卷积网络方法,可以逐层捕捉低、中、高层次时间尺度上的关系,在三个公共操作分割数据集上以视频或传感器数据实现了优越或竞争性能,并且可以在较短时间内训练完成。
Aug, 2016
本文提出了一种使用新型解释性模型 TCN 进行 3D 人体动作识别任务的方法 Res-TCN,并在最大的 3D 人体动作识别数据集 NTU-RGBD 上取得了最新的成果。
Apr, 2017
该论文提出了一种新的网络结构,可以允许任意数量的帧作为网络输入,并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题,实验结果表明该方法在使用更少的训练数据时能超越同类方法。
Mar, 2015
本文研究了几种用于视频分析的时空卷积形式,并研究了它们对动作识别的影响。我们在残差学习的框架下,实证演示了 3D CNNs 相对于 2D CNNs 的准确性优势。此外,我们还表明把 3D 卷积滤波器分解成单独的时空分量会显著提高准确性。最终,我们设计了一个新的时空卷积块 “R (2+1) D”,这种方法产生的 CNN 的结果与最新技术相当甚至更好,可以在 Sports-1M、Kinetics、UCF101 和 HMDB51 数据集上取得更好的表现。
Nov, 2017
本文探讨了基于深度学习的两种方法 —— 单帧卷积神经网络和卷积长短时记忆,以实现从视频中识别人类行为,同时在 UCF50 数据集和实验数据集上对两个模型进行了评估,结果表明单帧 CNN 模型的准确性优于卷积 LSTM 模型。
Apr, 2023
本文提出了一种新的视频动作识别框架 - TSN,并探究了在时间段网络的帮助下学习 ConvNet 模型的一系列良好实践策略。实验结果表明,本方法在 HMDB51(69.4%)和 UCF101(94.2%)数据集上取得了最先进的性能。我们还可视化了学习到的 ConvNet 模型,定性展示了时间段网络和所提出良好实践的有效性。
Aug, 2016
为了最好地利用时空信息,我们研究了在空间和时间上融合 ConvNet 塔的多种方法,并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构,以融合视频片段的空时信息,并在标准基准测试中评估了其性能,该架构达到了最先进的结果。
Apr, 2016