高质量物体链接的视频目标检测
该研究提出了一种基于 tubelet 提案网络和 LSTM 网络的视频对象检测框架,以在视频中高效地生成空间时间提案并融合时间信息以实现高精度的对象检测。
Feb, 2017
该论文提出了一种用于视频中物体分割的方法,结合了帧级物体检测与物体跟踪、运动分割等概念,提取了基于现成检测器的时间一致性物体管,结合运动线索提供视频分割,克服了弱监督 / 无监督视频分割的典型问题,并提供每个对象的精确、时间一致的分割。
Aug, 2016
本论文介绍了一个基于静态图像物体侦测和一般物体跟踪的完整视频目标侦测框架,并提出了一个时间卷积网络来整合时间信息以规范化侦测结果,在 ImageNet 数据集上进行了评估。
Apr, 2016
提出了一种深度学习框架 T-CNN,该框架从视频中获取来自 tubelets 的时间和语境信息,用于物体检测,经证实,在 ImageNet Large-Scale Visual Recognition Challenge 2015(ILSVRC2015)的提供数据的物体检测从视频(VID)任务中表现出色。
Apr, 2016
本文通过提出 ACT-detector,结合对象检测中的 anchor boxes 思想,利用视频的时间连续性进行动作检测,结果表明在 J-HMDB 和 UCF-101 数据集上,我们的 ACT-detector 检测方法在帧 - 平均精度 (frame-mAP) 和视频 - 平均精度 (video-mAP) 上都优于基于帧的最新方法,特别是具有高重叠阈值时,精度和定位都得到了显著的提升。
May, 2017
本研究提出一种结合发现和跟踪两个过程的算法,用于自动定位包含在视频集合中的物体,并能发现跨不同视频的物体实例之间的隐含拓扑关系,实验表明该算法在多目标定位方面表现优异
May, 2015
通过利用连续平滑的运动,我们在三个方面进行了改进:1)通过将对象运动作为额外的监督来源,从静态关键帧中预测对象位置来提高准确性。2)通过仅在少量帧中进行昂贵的特征计算来提高效率。3)通过仅注释关键帧并利用关键帧之间的平滑伪运动来减少注释成本。我们在四个数据集上展示了计算效率、注释效率和改进的均值平均精度,分别是 ImageNet VID,EPIC KITCHENS-55,YouTube-BoundingBoxes 和 Waymo Open dataset。我们的源代码可在此 https URL 找到。
Aug, 2023
本文提出了一种基于学习相似度评估的后处理方法,它可以克服先前后处理方法的一些局限性,提高特定视频检测器的结果,特别是在快速运动物体方面,并具有低资源要求。该方法还可以应用于像 YOLO 这样的高效静态图像检测器,提供与计算量更大的检测器相当的结果。
Sep, 2020
该研究提出了一种基于 4D Generic Video Tubes(4D-GVT)的方法,它利用运动线索、立体数据和目标实例分割可靠地提取已知和未知目标类型的时空对象建议,在未知类别的情况下,它表现出比其他方法更好的性能。
Jan, 2019