引导式多目标跟踪

Jun, 2024

Bootstrapping Referring Multi-Object Tracking

Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong

TL;DR通过引入具有鉴别力的语言词汇，我们首先将 Refer-KITTI 转化为大规模数据集 Refer-KITTI-V2，解决了类别不平衡问题，并通过大型语言模型推进策略扩展了数据集，包含了 617 个不同的关键词，超过了之前 RMOT 基准。此外，RMOT 的端到端框架还通过简单而优雅的时间推进策略进行了优化，表现优于之前的方法。

Abstract

Referring multi-object tracking (RMOT) aims at detecting and tracking multiple objects following human instruction represented by a natural language expression. Existing rmot benchmarks are usually formulated thr

multi-object tracking rmot benchmarks refer-kitti class imbalance temporal advancement strategy

发现论文，激发创造

多目标引用跟踪

本文提出了一个新的、通用的指代多目标跟踪（RMOT）任务，其核心思想是利用语言表达作为语义线索来引导多目标跟踪的预测。作者构建了一个基于 KITTI 的可扩展表达基准 Refer-KITTI，并开发了一个基于变压器的 TransRMOT 架构来解决该任务，在线方式取得了令人瞩目的检测性能，并超越了其他对手。

Mar, 2023

iKUN：无需重新训练即可与追踪器对话

通过插入可插拔的知识统一网络 iKUN，本文介绍了一种基于输入文本描述的多目标跟踪方法，其中使用知识统一模块 KUM 来自适应性地提取视觉特征，并引入了神经卡尔曼滤波器 NKF 来动态调整过程噪声和观测噪声，同时提出了测试时相似性校准方法来改进置信度分数，并通过扩展公共 DanceTrack 数据集，贡献了一个更具挑战性的数据集 Refer-Dance，从而加快了 RMOT 的发展。

Dec, 2023

MLS-Track：RMOT 中的多层语义交互

通过使用 Unreal Engine 5 构建了一个名为 Refer-UE-City 的全新基准数据集，其中包括了交叉口监控视频中的人和车的外观和行为细节，并提出了一种多层语义引导的多目标追踪框架 MLS-Track，通过引入语义引导模块 (SGM) 和语义相关分支 (SCB) 逐层增强模型与文本之间的交互，实验结果表明该框架具有最先进的性能。

Apr, 2024

MOTRv2: 预训练目标检测器引导端到端多目标跟踪

本论文提出 MOTRv2, 旨在通过一个预先训练好的物体定位器，启动端到端的多目标跟踪。利用额外的物体探测器来提高 MOTR 的性能，并排名第一，最终达到了先进的性能。

Nov, 2022

EchoTrack: 自主驾驶中的听觉参考多目标追踪

通过音频和视频融合的双流视觉变换框架，本研究提出了 EchoTrack 模型，解决了自动驾驶中的 Auditory Referring Multi-Object Tracking 问题，并建立了一套大规模的 AR-MOT 基准测试集。

Feb, 2024

OVTrack: 开放式词汇多目标跟踪

本研究解决了传统多目标跟踪方法只针对少数预定义对象类型的固有限制，并提出了一种新的任务 Open-vocabulary MOT，进一步开发出一种数据效率优异的开放词汇跟踪器 OVTrack，通过知识蒸馏和数据幻觉策略有效提升图像分类和关联准确性，最终在大规模的 TAO 基准测试上取得了最新的最优效果。

Apr, 2023

LaMOT: 语言引导的多目标跟踪

本文介绍了一种统一的任务框架 Language-Guided MOT 和相关的大规模基准 LaMOT，旨在推动 Vision-Language MOT 领域的研究进展，并提出了一种简单而有效的追踪器 LaMOTer。

Jun, 2024

BoT-SORT: 鲁棒的多行人跟踪关联

本文介绍了一种新的鲁棒性强的跟踪器，该跟踪器可以将运动和外观信息、相机运动补偿和更准确的卡尔曼滤波状态向量相结合，其新的跟踪器 BoT-SORT 和 BoT-SORT-ReID 在 MOTChallenge 的 MOT17 和 MOT20 测试集上均排名第一。

Jun, 2022

ReMOTS: 自我监督细化多目标跟踪和分割

提出了一种自监督的重构 MOTS 框架，并在 CVPR 2020 的 MOTS 挑战中获得了第一名，该框架利用数据关联，引入阈值，通过短期轨迹训练外观编码器，达到对 MOTS 结果的精细化改进。

Jul, 2020

多模态物体跟踪的卓越性能

多模态目标跟踪是一个新兴领域，它利用来自各种模态的数据（比如视觉、深度、红外热像、事件、语言和音频）来估计视频序列中任意物体的状态。本研究综述了现有多模态目标跟踪任务，并分析总结了各个任务的常用数据集和主流的跟踪算法，重点关注了它们基于自监督学习、提示学习、知识蒸馏、生成模型和状态空间模型等技术范式。同时，在此网址上维护了一个持续更新的多模态目标跟踪论文清单。

May, 2024