本研究提出了一种用于视频中动作检测和分割的端到端 3D CNN,利用 3D 卷积特征识别和定位动作,通过平分视频为若干部分,生成不同段落的膜状提议,然后把不同段的提议联系在一起,通过上下文信息实现视频物体分割和动作检测。
Nov, 2017
本文提出了一种基于 3D 全卷积神经网络的编码 - 解码网络结构,将其应用于视频中的显著对象分割。尝试使用全 3D 卷积来处理外观和运动信息从而实现密集视频预测,并通过 3D 全局卷积层和 3D 细化模块进行编码和解码操作。作者将其应用于 DAVIS'16 无监督,FBMS 和 ViSal 数据集基准测试中,结果表明其效果优于现有状态艺术,同时速度更快,能够高效地学习空间 - 时间特征并产生高质量的视频分割掩码。
Aug, 2020
本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法,通过 SVM 对特征进行分类,实验结果表明,在标准数据集上,该算法提高了 14% 的识别率。
Mar, 2017
本研究提出基于 3D 卷积神经网络的新型深度学习模型,可以更快速和准确地进行动作和运动表示,进一步整合光流特征从而获得更准确的结果。
Aug, 2016
本文利用 3D CNN 提取基于骨架的动作识别的时空信息与深度特征,探讨其与 RNN 的互补性和噪声下的鲁棒性,并在 SmartHome 数据集和 NTU RGB-D 数据集上获得优异的表现。
May, 2017
提出了一个基于低级时空特征和高级的段分类器的动作分割模型, 结合了半马尔可夫模型, 并引入一种比当前方法快数倍的有效的有约束的段推断算法。在烹饪和手术动作数据集上观察到明显的改进。
Feb, 2016
该论文提出了一种新的网络结构,可以允许任意数量的帧作为网络输入,并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题,实验结果表明该方法在使用更少的训练数据时能超越同类方法。
Mar, 2015
本文分析基于 2D 或 3D CNN 的视频动作识别方法,比较这些方法之间的区别和进展,并开发了一个统一框架进行公平比较,发现在动作识别方面取得了显著的提高,但准确性未有进展,探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。
Oct, 2020
本研究通过优化设计网络结构,系统地探讨了关键网络设计选择,包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等,进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快,而且在行动分类基准测试(Kinetics、Something-something、UCF101 和 HMDB)以及两个行动检测(本地化)基准测试(JHMDB 和 UCF101-24)中的分类效果也比其他方法更有竞争力。
Dec, 2017
本论文提出了一种联合多任务网络设计,用于同时学习目标检测和语义分割,以实现低功耗嵌入式 SOC 上的实时性能,并在两个公共数据集(KITTI,Cityscapes)和私人鱼眼相机数据集中评估提出的网络。
Jan, 2019