本文介绍了一种用于视频中物体检测的新架构 SSVD,通过对相邻帧的特征进行聚合和估算运动路径,实现了单阶段物体检测。在 ImageNet VID 数据集上进行的实验证明,该方法比现有的物体检测方法更为有效。
Jul, 2020
本文探讨了基于多帧端到端学习特征和帧间运动的统一方法,该方法扩展了之前的研究并引入了三个新技术来提高视频物体检测性能。
Nov, 2017
提出了一种新的视频伪装目标检测 (VCOD) 框架,可以利用短期动态和长期时间一致性来检测视频帧中的伪装目标,采用单一优化框架统一了运动估计和对象分割,并使用空间 - 时间变换器从而有效地处理视频的时间动态,提供了一个名为 MoCA-Mask 的大规模 VCOD 数据集,为该方向的研究建立了综合性的基准测试。
Mar, 2022
本文提出了一种基于学习相似度评估的后处理方法,它可以克服先前后处理方法的一些局限性,提高特定视频检测器的结果,特别是在快速运动物体方面,并具有低资源要求。该方法还可以应用于像 YOLO 这样的高效静态图像检测器,提供与计算量更大的检测器相当的结果。
Sep, 2020
通过引入图像级对象检测难度(ODD)度量来解决视频目标检测模型中的过聚合问题,从而提高准确性和加速视频目标检测过程。实验证明,ODD-VOD 方法在选择全局参考帧和加速两方面都能显著提升性能。
Aug, 2023
本文提出了一种高效的视频物体推荐生成方法及聚类方法,应用于对象检测,使得仅需对每帧中少量候选提议进行分类实现在视频中检测对象的效率提高,证明了该方法在 Youtube-Objects 数据集上达到了最先进的检测性能。
Jan, 2016
本文探讨了一种基于时间空间计算的高效物体检测方法,通过在规模,时间和空间上重新配置计算来实现性能和计算成本的平衡,提出了一个统一的框架,在 ImageNet VID 数据集中实现了具有竞争力的 mAP 79.6%。
Apr, 2018
本文介绍了一种将 “tracking-by-detection” 引入视频对象分割的方法,通过提出一种新的时间聚合网络和新的动态时间演进模板匹配机制,成功将分割与跟踪相一致,并在 DAVIS 基准测试中取得了新的最优表现。
通过利用连续平滑的运动,我们在三个方面进行了改进:1)通过将对象运动作为额外的监督来源,从静态关键帧中预测对象位置来提高准确性。2)通过仅在少量帧中进行昂贵的特征计算来提高效率。3)通过仅注释关键帧并利用关键帧之间的平滑伪运动来减少注释成本。我们在四个数据集上展示了计算效率、注释效率和改进的均值平均精度,分别是 ImageNet VID,EPIC KITCHENS-55,YouTube-BoundingBoxes 和 Waymo Open dataset。我们的源代码可在此 https URL 找到。
本论文提出了一种视频目标分割 (VOS) 的新的一次性训练框架,只需要一个标记的帧来训练,并适用于大多数最先进的 VOS 网络。通过双向训练,我们得到了一个令人满意的 VOS 网络,仅使用了 YouTube-VOS 和 DAVIS 数据集的一个标记的帧,达到了与完全标记的数据集训练的结果相当的效果。
May, 2024