使用卷积神经网络从视频管道中进行目标检测
提出了一种深度学习框架 T-CNN,该框架从视频中获取来自 tubelets 的时间和语境信息,用于物体检测,经证实,在 ImageNet Large-Scale Visual Recognition Challenge 2015(ILSVRC2015)的提供数据的物体检测从视频(VID)任务中表现出色。
Apr, 2016
本文回顾了基于深度学习的目标检测框架,从深度学习和卷积神经网络教程开始,介绍了典型的通用和特定目标检测架构以及改进方法和技巧,并提供了实验数据分析,最后提出了未来研究中的几个有前景的方向和任务。
Jul, 2018
提出了一种名为 T-CNN 的端到端深度网络,用于进行视频中的行为检测,该网络通过 3D 卷积特征识别并定位行为,能够对修剪和未修剪视频中的行为进行分类和定位。
Mar, 2017
该研究提出了一种基于 tubelet 提案网络和 LSTM 网络的视频对象检测框架,以在视频中高效地生成空间时间提案并融合时间信息以实现高精度的对象检测。
Feb, 2017
本文提出了一种使用 ConvNet 架构进行对象检测与跟踪的方法,采用多任务目标进行基于帧的对象检测和跨帧轨迹回归,通过引入表示对象共现的相关特征对 ConvNet 进行辅助,同时通过链接基于跨帧路径的帧级检测结果来产生视频级别高精度检测结果,并在大规模 ImageNet VID 数据集中获得了最新的最先进的结果。
Oct, 2017
本研究介绍了一种新的视频目标检测方法,采用时序上下文方法来链接同一对象,从而提高分类准确率。该方法在 ImageNet VID 数据集上的表现优于静态图像检测器和先前的最新技术。
Jan, 2018
该研究提出了一种基于显著性启发的神经网络模型,可以有效地在图像中检测出包含任何感兴趣的对象的一组类不可知的边界框,而不需要针对每个实例复制输出,并在 VOC2007 和 ILSVRC2012 上获得了具有竞争力的识别性能。
Dec, 2013
本论文提出和评估了几个深度神经网络架构,用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法,包括卷积时间特征池化和循环神经网络结构,该论文指出最佳神经网络在 Sports 1 million 数据集(73.1%对 60.9%)和 UCF-101 数据集中(88.6%对 88.0%)及无附加光流信息(82.6%对 72.8%)上明显性能提高。
Mar, 2015
本研究提出了一种用于视频中动作检测和分割的端到端 3D CNN,利用 3D 卷积特征识别和定位动作,通过平分视频为若干部分,生成不同段落的膜状提议,然后把不同段的提议联系在一起,通过上下文信息实现视频物体分割和动作检测。
Nov, 2017