May, 2023

Type-to-Track: 基于提示的跟踪技术,用于检索任何物体

TL;DR本文提出了一种使用自然语言描述对象并进行多目标跟踪的新范例,介绍了包含文字描述的视频数据集 GroOT,提出了用于这一任务的两个新的评估协议和评估度量,并采用基于 transformer 的 MENDER 方法开发了一种高效的模型,证明其在准确性和效率方面均超越了其他两阶段设计,跟踪精度提高了 14.7%,速度提升了 4 倍。