一种高效的用于视频行为 / 物体分割的 3D 卷积神经网络

Jul, 2019

一种高效的用于视频行为 / 物体分割的 3D 卷积神经网络

An Efficient 3D CNN for Action/Object Segmentation in Video

Rui Hou, Chen Chen, Rahul Sukthankar, Mubarak Shah

TL;DR本研究提出一种基于卷积神经网络（CNN）的 3D 编码器 - 解码器风格方法来同时汇集空间和时间信息从而用于视频物体分割和视频行为分割，测试结果表明该方法比现有技术具有更高的性能表现。

Abstract

convolutional neural network (CNN) based image segmentation has made great progress in recent years. However, video object segmentation re

convolutional neural network image segmentation video object segmentation 3d cnn motion features

发现论文，激发创造

视频中动作检测和分割的端到端 3D 卷积神经网络

本研究提出了一种用于视频中动作检测和分割的端到端 3D CNN，利用 3D 卷积特征识别和定位动作，通过平分视频为若干部分，生成不同段落的膜状提议，然后把不同段的提议联系在一起，通过上下文信息实现视频物体分割和动作检测。

Nov, 2017

为视频物体分割提出三维卷积的论点

本文提出了一种基于 3D 全卷积神经网络的编码 - 解码网络结构，将其应用于视频中的显著对象分割。尝试使用全 3D 卷积来处理外观和运动信息从而实现密集视频预测，并通过 3D 全局卷积层和 3D 细化模块进行编码和解码操作。作者将其应用于 DAVIS'16 无监督，FBMS 和 ViSal 数据集基准测试中，结果表明其效果优于现有状态艺术，同时速度更快，能够高效地学习空间 - 时间特征并产生高质量的视频分割掩码。

Aug, 2020

用于 3D 视频中动作识别的双流 RNN/CNN

本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法，通过 SVM 对特征进行分类，实验结果表明，在标准数据集上，该算法提高了 14% 的识别率。

Mar, 2017

视频分类的高效双流动态和外观 3D 卷积神经网络

本研究提出基于 3D 卷积神经网络的新型深度学习模型，可以更快速和准确地进行动作和运动表示，进一步整合光流特征从而获得更准确的结果。

Aug, 2016

基于骨骼的动作识别的双流三维卷积神经网络

本文利用 3D CNN 提取基于骨架的动作识别的时空信息与深度特征，探讨其与 RNN 的互补性和噪声下的鲁棒性，并在 SmartHome 数据集和 NTU RGB-D 数据集上获得优异的表现。

May, 2017

用于细粒度动作分割的分段时空卷积神经网络

提出了一个基于低级时空特征和高级的段分类器的动作分割模型，结合了半马尔可夫模型，并引入一种比当前方法快数倍的有效的有约束的段推断算法。在烹饪和手术动作数据集上观察到明显的改进。

Feb, 2016

基于时间金字塔池化的卷积神经网络用于动作识别

该论文提出了一种新的网络结构，可以允许任意数量的帧作为网络输入，并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题，实验结果表明该方法在使用更少的训练数据时能超越同类方法。

Mar, 2015

基于 CNN 的时空表示深度分析用于行为识别

本文分析基于 2D 或 3D CNN 的视频动作识别方法，比较这些方法之间的区别和进展，并开发了一个统一框架进行公平比较，发现在动作识别方面取得了显著的提高，但准确性未有进展，探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。

Oct, 2020

重新思考时空特征学习：视频分类的速度和准确性权衡

本研究通过优化设计网络结构，系统地探讨了关键网络设计选择，包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等，进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快，而且在行动分类基准测试（Kinetics、Something-something、UCF101 和 HMDB）以及两个行动检测（本地化）基准测试（JHMDB 和 UCF101-24）中的分类效果也比其他方法更有竞争力。

Dec, 2017

自动驾驶的实时联合目标检测和语义分割网络

本论文提出了一种联合多任务网络设计，用于同时学习目标检测和语义分割，以实现低功耗嵌入式 SOC 上的实时性能，并在两个公共数据集（KITTI，Cityscapes）和私人鱼眼相机数据集中评估提出的网络。

Jan, 2019