使用管段提案网络进行视频目标检测
本研究介绍了一种新的视频目标检测方法,采用时序上下文方法来链接同一对象,从而提高分类准确率。该方法在 ImageNet VID 数据集上的表现优于静态图像检测器和先前的最新技术。
Jan, 2018
提出了一种深度学习框架 T-CNN,该框架从视频中获取来自 tubelets 的时间和语境信息,用于物体检测,经证实,在 ImageNet Large-Scale Visual Recognition Challenge 2015(ILSVRC2015)的提供数据的物体检测从视频(VID)任务中表现出色。
Apr, 2016
本文通过提出 ACT-detector,结合对象检测中的 anchor boxes 思想,利用视频的时间连续性进行动作检测,结果表明在 J-HMDB 和 UCF-101 数据集上,我们的 ACT-detector 检测方法在帧 - 平均精度 (frame-mAP) 和视频 - 平均精度 (video-mAP) 上都优于基于帧的最新方法,特别是具有高重叠阈值时,精度和定位都得到了显著的提升。
May, 2017
本论文介绍了一个基于静态图像物体侦测和一般物体跟踪的完整视频目标侦测框架,并提出了一个时间卷积网络来整合时间信息以规范化侦测结果,在 ImageNet 数据集上进行了评估。
Apr, 2016
本文提出了基于反复卷积结构的在线物体检测模型,并使用瓶颈长短时记忆层来降低计算成本。该模型在移动 CPU 上实现了 15 FPS 的实时推断速度。
Nov, 2017
本文提出了一种简单的解决方案 TubeR,用于实现时空视频动作检测,可以有效地增强模型容量,并且直接产生变长动作管道,并在常用的行动检测数据集 AVA、UCF101-24 和 JHMDB51-21 上优于先前的最佳状态。
Apr, 2021
本文提出了一种新的基于视频的行动定位框架,使用管道提案网络 (TPN) 生成通用的、独立于类别、视频级别的管状建议,可用于各种视频分析任务,包括行动识别和定位。与其他方法相比,我们的通用管状建议方法准确、通用,并在平滑 L1 损失函数下完全可微。在标准的 UCF-Sports、J-HMDB21 和 UCF-101 数据集上证明了算法的性能。我们的独立于类别的 TPN 优于其他管状建议方法,我们的统一时间深度网络在所有三个数据集上都实现了最先进的定位结果。
May, 2017
提出一种基于 Transformer、全端到端的模型,该模型直接处理输入视频并输出一系列边界框和每一帧的动作类别,能够使用稀疏边界框基础训练或完整灯管基础训练训练,且无需额外的前处理或后处理即可预测出高质量的结果,并在四个不同的局部性数据集上取得优异的实验成果。
Apr, 2023
该论文提出了一种用于视频中物体分割的方法,结合了帧级物体检测与物体跟踪、运动分割等概念,提取了基于现成检测器的时间一致性物体管,结合运动线索提供视频分割,克服了弱监督 / 无监督视频分割的典型问题,并提供每个对象的精确、时间一致的分割。
Aug, 2016
本论文提出了一种基于注意机制和卷积长短时记忆(ConvLSTM)的时序单次检测器(TSSD),以实现视频中的实时在线目标检测。采用 ConvLSTM 来集成时间金字塔特征层次,并使用一个低级时序单元和一个高级单元来设计新颖的结构(LH-TU)进行多尺度特征图。关注 ConvLSTM(AC-LSTM)的创新时间分析单元被设计为时间上的背景抑制和尺度抑制,并跨时间集成具有关注注意力的特征。此外,针对时间一致性设计了联合损失和多步训练。最后,利用在线管道分析(OTA)进行识别。评估结果证明,该方法在检测和跟踪性能方面具有优势。
Mar, 2018