通过引入实例级对比损失、修订的采样策略和轻量级分配方法,我们展示了如何将 DETR 转化为 MOT 模型,学习目标的外观并保留检测能力,其性能在具有挑战性的 BDD100K 数据集上超过了先前的最新技术水平 2.6 mMOTA,并在 MOT17 数据集上与现有的基于 transformer 的方法相媲美。
Nov, 2023
本文提出了任务特定的不一致对齐(TIA)方法,通过在分类和定位分支中添加辅助预测器来解决领域偏移问题,并设计了任务特定的损失函数来对齐跨领域差异,有效提高物体检测器的分类和定位能力。
Mar, 2022
本文提供了一种将目标检测器(如 RetinaNet 和 FCOS)快速转换为跟踪器的方法,即使用元学习方法(MAML)进行离线训练和领域自适应,并展示了通过该方法构建的 Retina-MAML 和 FCOS-MAML 跟踪器在四个基准测试中的竞争力。
Apr, 2020
本文提出不同 iable 的 MOTA 和 MOTP 的替代方法,并结合适合深度多对象跟踪器的损失函数,使用深度匈牙利网络(DHN)模块来近似匈牙利匹配算法,从而直接优化深度跟踪器,从而在 MOTChallenge 基准测试中建立了新的最佳状态。
Jun, 2019
通过概率建模解决多目标追踪中的多模态信息融合问题,提高了多个基于检测的追踪算法的性能。
Aug, 2023
该研究提出了一种视频基于物体为中心的模型,通过适应物体为中心的插槽以及构建完整物体原型来处理遮挡,仅需要稀疏的检测标签进行物体定位和特征绑定,无需 ID 标签,并通过自我监督的期望最大化损失函数实现物体关联,实验证明了该方法在物体为中心的学习领域的卓越性能。
Sep, 2023
该研究探讨了长期时间视觉对应优化在三维视频对象检测中的应用,提出了具有目标中心时间对应学习和特征度量对象绑定调整的 BA-Det,取得了各种设置下基线 3D 检测器的 SOTA 性能。
Mar, 2023
通过结合多模态的语言驱动特征和视觉特征,在多目标跟踪中提出了一种新的 LG-MOT 框架,它在不同层次上(场景和实例级)明确利用语言信息并且与标准视觉特征结合以获得判别性表示。通过在现有的 MOT 数据集中注释场景和实例级的语言描述,将语言信息编码到高维度嵌入中,并在训练过程中用于引导视觉特征。在三个基准测试集 MOT17、DanceTrack 和 SportsMOT 上进行了广泛实验,结果显示提出的方法在性能上达到了最先进水平,并在舞蹈跟踪测试集上相对于仅使用视觉特征的基线方法具有绝对增益 2.2%。此外,所提出的 LG-MOT 表现出良好的跨领域泛化能力。
Jun, 2024
该研究通过跟踪任意对象的任务,扩展了经典的 “跟踪 - 检测” 方法,采用多种技术结合实现了更好的检测和特征表示,并应用简单的链接策略和关联模块生成最终的跟踪结果。
Jan, 2021
本文提出一种 Task-aligned One-stage Object Detection(TOOD)方法,通过设计一种 Task-aligned Head(T-Head)和 Task Alignment Learning(TAL),在学习过程中显示地对齐对象分类和定位这两个任务,实验结果表明,TOOD 方法比最近的一阶段检测器在准确率方面都要优秀。
Aug, 2021