- SSGA-Net: 逐步空间全局本地聚合网络用于自动驾驶
我们提出了一种分阶段空间全局 - 局部聚合网络,用于解决快速运动或多个姿势引起的特征退化问题,并提高在在线应用中的效率。
- CVPR面向恶劣图像条件下的视频目标检测的无源域适应
我们提出了一种用于视频目标检测的简单而有效的无源域自适应方法,STAR-MT。通过改进 YOLOV 方法,在包括噪声、气流湍流和雾霾等恶劣图像条件下,我们的方法始终提高了视频目标检测性能,展示了其在现实世界应用中的潜力。
- 多分辨率重评分字节跟踪用于超低功耗嵌入式系统的视频目标检测
介绍了一种用于超低功耗嵌入式处理器的新型视频目标检测框架 Multi-Resolution Rescored Byte-Track(MR2-ByteTrack),其通过交替处理高分辨率图像和多个缩小尺寸的帧来减少现成的深度神经网络(DNN) - 可扩展流基主动蒸馏的相机聚类
我们提出了一个可扩展的框架,用于设计高效的轻量级视频目标检测模型,利用自训练和知识蒸馏技术。我们研究了从视频流中选择训练图像的理想方法和跨多个摄像头分享模型的效果。通过提倡一种摄像头聚类方法,我们旨在减少训练所需的模型数量,同时增加蒸馏数据 - 利用时间一致性进行高效的单阶段视频目标检测
我们提出了一个简单而高效的框架,通过利用视频帧中的时间一致性来解决计算上的瓶颈,从而实现了具有高效性的单阶段视频目标检测。
- MAMBA: 基于记忆库的视频目标检测的多级聚合
通过使用多层聚合架构和内存库的方式进行视频对象检测,提出了一种通过构建轻量级键值对和细粒度特征更新策略的方法,该方法可以提高特征增强的效果,实现了在速度和准确度方面超越现有最先进方法的性能。
- 上下文增强的单图像目标检测转换器
我们提出了一种新颖的单图像目标检测方法,称为 Context Enhanced TRansformer (CETR),通过将时间上下文引入 DETR 并使用新设计的内存模块。
- SSVOD:带有稀疏标注的半监督视频物体检测
通过利用视频的动态运动特性,我们引入了 SSVOD,一个端到端的半监督视频目标检测框架,以利用大规模未标记的帧和稀疏注释来选择性地组装鲁棒的伪标签,并通过结合硬伪标签和软伪标签的置信度阈值进行伪标签的确认偏见和不确定性噪声的平衡,从而在 I - MM目标检测难度:压制过度聚合以实现更快更好的视频目标检测
通过引入图像级对象检测难度(ODD)度量来解决视频目标检测模型中的过聚合问题,从而提高准确性和加速视频目标检测过程。实验证明,ODD-VOD 方法在选择全局参考帧和加速两方面都能显著提升性能。
- ICCV视频目标检测的一致身份聚合
本文提出了一种使用 Identity-Consistent Aggregation (ICA) 层的 VID 模型 ClipVID,旨在改善 Video Object Detection 中的对象表示和处理对象外观变化。在 ImageNet - 基于擦除的 RGBT 视频目标检测交互网络与统一基准
RGB-thermal (RGBT) 视频目标检测是一项新的计算机视觉任务,旨在通过引入热像模态来改善在不良照明条件下由 RGB 传感器造成的性能限制。为了促进 RGBT 视频目标检测的研究和发展,本文提出了一种名为 Erasure-bas - 视频中表面和水中垃圾的检测:鲁棒高效的后处理和管道级绑定框链接
印度尼西亚是一个海洋国家,由于无效的垃圾管理,海洋中积聚了大量的垃圾,影响严重。本研究提出了一种自动垃圾清理机器人的视频物体检测方法,利用 YOLOv5 模型和 Robust & Efficient Post Processing (REP - 无人机视频目标检测和跟踪的内存映射技术
通过元数据纳入无人飞行器(UAVs)的实际世界坐标系统中,提高了视频物体检测、短时和长时单对象或多对象追踪、视频异常检测等计算机视觉任务的性能,从而加强了 UAVs 的能力。
- AAAI对象查询传播在高性能视频对象检测中的应用
本篇论文提出了一种名为 QueryProp 的视频物体检测特征传播框架,通过对象级特征传播策略和自适应传播门进行关键帧选择,实现了高准确率和高速度的检测。
- ECCV流式多尺度深度平衡模型
StreamDEQ 是一种使用隐式层模型连续推断每帧视频表示且利用先前帧的表示作为初始条件的方法,通过实验证明,StreamDEQ 在几帧的实验时间内准确地恢复了近乎最优的表示,并且可以在视频显示期间保持最新的表示。
- TransVOD: 基于空间 - 时间变换器的端到端视频目标检测
本文提出了一种基于 Transformer 和 DETR 的视频目标检测系统 TransVOD,通过时间 Transformer 和 Temporal Deformable Transformer Decoder 的设计,能够提高复杂的手工 - AAAI视频对象识别的时态 RoI Align
在视频物体检测中,使用提取视频中当前帧之前的帧中的信息对当前帧进行检测以提取时序信息是一种自然的选择,本文提出了一种基于特征相似性的新型 Temporal RoI Align 算子,用于从当前视频中的其它帧特征图中提取与当前帧相似的结果,能 - ECCV少样本视频物体检测
本篇论文提出了 Few-Shot Video Object Detection (FSVOD) 方法,包括 FSVOD-500 数据集、Tube Proposal Network 和 Temporal Matching Network 两个 - ApproxDet: 面向手机的内容和争议感知的近似目标检测
本文提出一种自适应移动设备视频目标检测框架 ApproxDet,采用多分支目标检测内核,并引入数据驱动建模方法和时延 SLA 驱动调度器,在运行时选择最佳执行分支以适应内容和资源争用特征,并结合可近似视频目标跟踪算法创建端到端视频目标检测系 - ECCV学习关注焦点以实现高效视频目标检测
提出了一种基于可学习的空间 - 时间采样 (LSTS) 模块、分散递归特征更新 (SRFU) 和密集特征聚合 (DFA) 模块,实现了视频目标检测中的准确空间对应关系,增强特征更新,提升检测性能,并在 ImageNet VID 数据集上取得