CVPRMar, 2023

自然语言规约下的联合视觉定位及跟踪

TL;DR本文提出一种联合视觉定位和追踪的框架,将定位和追踪转化为一个统一的任务,使用自然语言描述来确定目标;该框架使用多源关系建模模块和时间建模模块来构建自然语言描述和测试图像之间的关系,提供全局语义信息的指导和时间线索来提高适应性。