利用时间一致性进行高效的单阶段视频目标检测

Feb, 2024

利用时间一致性进行高效的单阶段视频目标检测

Efficient One-stage Video Object Detection by Exploiting Temporal Consistency

Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson

TL;DR我们提出了一个简单而高效的框架，通过利用视频帧中的时间一致性来解决计算上的瓶颈，从而实现了具有高效性的单阶段视频目标检测。

Abstract

Recently, one-stage detectors have achieved competitive accuracy and faster speed compared with traditional two-stage detectors on image data. However, in the field of video object detection (VOD), most existing

one-stage detectors video object detection computational bottlenecks temporal consistency efficiency

发现论文，激发创造

单次拍摄视频目标检测器

本文介绍了一种用于视频中物体检测的新架构 SSVD，通过对相邻帧的特征进行聚合和估算运动路径，实现了单阶段物体检测。在 ImageNet VID 数据集上进行的实验证明，该方法比现有的物体检测方法更为有效。

Jul, 2020

高性能视频目标检测

本文探讨了基于多帧端到端学习特征和帧间运动的统一方法，该方法扩展了之前的研究并引入了三个新技术来提高视频物体检测性能。

Nov, 2017

视频伪装目标检测隐式运动处理

提出了一种新的视频伪装目标检测 (VCOD) 框架，可以利用短期动态和长期时间一致性来检测视频帧中的伪装目标，采用单一优化框架统一了运动估计和对象分割，并使用空间 - 时间变换器从而有效地处理视频的时间动态，提供了一个名为 MoCA-Mask 的大规模 VCOD 数据集，为该方向的研究建立了综合性的基准测试。

Mar, 2022

视频目标检测的鲁棒高效后处理

本文提出了一种基于学习相似度评估的后处理方法，它可以克服先前后处理方法的一些局限性，提高特定视频检测器的结果，特别是在快速运动物体方面，并具有低资源要求。该方法还可以应用于像 YOLO 这样的高效静态图像检测器，提供与计算量更大的检测器相当的结果。

Sep, 2020

目标检测难度：压制过度聚合以实现更快更好的视频目标检测

通过引入图像级对象检测难度（ODD）度量来解决视频目标检测模型中的过聚合问题，从而提高准确性和加速视频目标检测过程。实验证明，ODD-VOD 方法在选择全局参考帧和加速两方面都能显著提升性能。

Aug, 2023

通过物体类标签传播在视频中检测时间上一致的物体

本文提出了一种高效的视频物体推荐生成方法及聚类方法，应用于对象检测，使得仅需对每帧中少量候选提议进行分类实现在视频中检测对象的效率提高，证明了该方法在 Youtube-Objects 数据集上达到了最先进的检测性能。

Jan, 2016

通过尺度 - 时间网格优化视频目标检测

本文探讨了一种基于时间空间计算的高效物体检测方法，通过在规模，时间和空间上重新配置计算来实现性能和计算成本的平衡，提出了一个统一的框架，在 ImageNet VID 数据集中实现了具有竞争力的 mAP 79.6％。

Apr, 2018

基于时间聚合网络和动态模板匹配的快速视频对象分割

本文介绍了一种将 “tracking-by-detection” 引入视频对象分割的方法，通过提出一种新的时间聚合网络和新的动态时间演进模板匹配机制，成功将分割与跟踪相一致，并在 DAVIS 基准测试中取得了新的最优表现。

Jul, 2020

物体不消失：通过单帧物体位置预测的视频物体检测

通过利用连续平滑的运动，我们在三个方面进行了改进：1）通过将对象运动作为额外的监督来源，从静态关键帧中预测对象位置来提高准确性。2）通过仅在少量帧中进行昂贵的特征计算来提高效率。3）通过仅注释关键帧并利用关键帧之间的平滑伪运动来减少注释成本。我们在四个数据集上展示了计算效率、注释效率和改进的均值平均精度，分别是 ImageNet VID，EPIC KITCHENS-55，YouTube-BoundingBoxes 和 Waymo Open dataset。我们的源代码可在此 https URL 找到。

Aug, 2023

视频对象分割的一次性训练

本论文提出了一种视频目标分割 (VOS) 的新的一次性训练框架，只需要一个标记的帧来训练，并适用于大多数最先进的 VOS 网络。通过双向训练，我们得到了一个令人满意的 VOS 网络，仅使用了 YouTube-VOS 和 DAVIS 数据集的一个标记的帧，达到了与完全标记的数据集训练的结果相当的效果。

May, 2024