- ECCV面向智能相机停车系统的无误深度占用检测器
该研究提出了一种基于端到端智能摄像头的停车系统,通过一个名为 OcpDet 的对象检测器,自主发现停车位的占用情况,并在推理过程中通过对比模块提供有意义的信息,避免了误检测,经过 PKLot 数据集的基准测试,其结果与传统分类解决方案相当, - ECCV目标检测中所有提议是否应平等对待?
针对资源受限视觉任务中目标检测器的复杂度与精度权衡问题,研究了检测头中建议处理的影响,提出动态建议处理(Dynamic Proposal Processing,DPP)的概念,将更多计算分配给好的建议,使得可用计算预算得到更好的利用,从而在 - YOLOv7:可训练的免费物品袋集合为实时物体检测器设立了新的技术水平
YOLOv7 是一种实时目标检测器,其速度和精度表现均优于已有模型,且只在 MS COCO 数据集上进行训练。
- X-DETR:一种用于实例级视觉 - 语言任务的通用架构
本文提出一种名为 X-DETR 的算法,针对具有挑战性的逐实例视觉语言任务进行研究;X-DETR 的架构包括对象检测器、语言编码器和视觉语言对齐器;该算法采用弱监督来扩大知识覆盖范围,经测试准确率高且速度快。
- PP-YOLOE:YOLO 的进化版
本文提出了一种名为 PP-YOLOE 的工业级目标检测器,采用基于先前版本的 PP-YOLOv2 的优化,使用无锚点范例、更强大的主干网和配备了 CSPRepResStage、ET-head 和动态标签分配算法 TAL 的 neck。在 C - ECCVPromptDet: 利用未校准的图像实现开放词汇检测
本文提出了一种可扩展的对象检测流程,使用零手动标注扩展到新颖 / 不可见类别,该过程包含开放词汇表的对象检测器、区域提示学习、自我训练等四个部分,并通过对挑战性数据集的广泛实验表明了其优于现有方法。
- CVPR全球跟踪变压器
本论文提出了一种新型基于 Transformer 的架构,用于全局多目标跟踪,通过对各帧图像上的物体特征进行编码,通过路径查询将其分组成轨迹,与目标检测器联合训练,可以实现对任意对象的跟踪,并在 MOT17 基准测试中实现了 75.3 的 - DINO: 改进去噪锚框的端到端物体检测 DET-BR
本文介绍了 DINO(带有改进去噪技术和锚框选择方法的 DETR 模型),是一种最先进的端到端对象检测器,通过使用对比方式的去噪训练、混合查询选择方法的锚初始化以及两次向前的方案了来改进 DETR 模型,该模型使用 ResNet-50 的主 - 混合数据增强技术在手部和物体接触检测中的应用
本文提出了一种称为 Background Mixup 的数据增强方法来提高手对象检测的性能,通过混合不包含手和物体的背景图像来防止意外偏差,有效地减少假阳性,适用于监督和半监督学习。
- ICLRSparse DETR:可学习稀疏性的高效端到端目标检测
Sparse DETR 是第一个使用 Transformer 架构的完整目标检测器,其只更新预期被解码器引用的令牌,从而提高模型性能,使性能优于 Deformable DETR。
- SOAT: 一种面向场景和对象感知的视觉语言导航变换器
本论文提出了一个基于 transformer 的视觉与语言导航(VLN)代理,使用两种不同的视觉编码器,即场景分类网络和对象检测器,它们能匹配这两种不同类型的视觉提示,进而通过视觉和语言的预训练实现通向 Room-to-Room(R2R)和 - 多尺度域自适应 YOLO 用于跨域目标检测
介绍一种新的多尺度域自适应 YOLO (MS-DAYOLO) 框架,利用多条域适应路径和相应的域分类器来生成域不变特征,用于目标检测和自动驾驶等场景中的应用。在常用数据集上的实验表明,使用所提出的 MS-DAYOLO 在训练 YOLOv4 - PP-YOLOv2: 实用物体检测器
通过综合评估现有的改进 refinement 的集合以改善 PP-YOLO 的性能,并为实现几乎不改变推理时间的效果,逐步进行消融研究以评估它们对最终模型性能的影响,通过结合多种有效的精炼手段,将 PP-YOLO 的性能从 45.9% mA - AAAIRef-NMS: 两阶段指向性表达基础中打破建议瓶颈
本文提出了一种新的方法 Ref-NMS,它采用一个轻量级模块来对每个提案的盒子与关键对象对齐的得分进行预测,以提高关键对象的召回率,从而显著提高指代表达接地性能。
- ECCVMeta-Sim2: 用于合成数据生成的场景结构无监督学习
通过元学习和强化学习技术,Meta-Sim2 可以在没有监督的情况下学习到生成数据的离散结构统计,包括对象的频率,并且使用所生成的数据训练物体探测器的性能明显优于基线模拟方法。
- ECCV使用统一标签空间从多个数据集中进行目标检测
本文提出了一种框架,通过融合多个数据集的标签空间进行单一目标检测,解决了不同注释数据集之间的矛盾问题,采用伪标签方法处理局部而正确的注释,提出了损失函数将伪标签与噪声控制在一个相对稳定的范围内,并通过实验表明了方法的有效性。
- CVPR稀疏标注数据下的半监督目标检测
使用基于单一物体跟踪和半监督学习的方法,对于 IoU 稀疏注释的目标检测,自动生成密集注释用于训练目标检测器,从而在 Epic-Kitchens 2020 目标检测挑战中获得了第一名和亚军的成绩(在不同测试集上)。
- CVPR基于图诱导原型对齐的跨域检测
通过图形感知原型对齐(GPA)框架和加权对比损失最小化类不平衡,结合 Faster R-CNN 的特征对齐方式,可实现目标探测跨域适应。
- CVPRHit-Detector:一种用于物体检测的分层三位一体架构搜索方法
提出了一种分级三元搜索框架,以同时发现物体检测器的所有组件(即主干,neck 和 head)的有效体系结构,在每个对应的子搜索空间上进行端到端的搜索,其中不同的子搜索空间适合不同的组件。
- CVPR拥挤场景中的检测:一种提议,多种预测
提出了一种基于 proposal 的物体检测器,通过使用相关实例集而不是单个实例来预测每个 proposal,引入 EMD Loss 和 Set NMS 等新技术,能够有效处理高度重叠物体的检测难度,在 CrowdHuman 数据集上获得