CVPRMar, 2024

上下文感知自然语言跟踪的语言和视觉参考集成

TL;DR通过自然语言规范(TNL)追踪是在视频序列中根据初始帧的语言描述来稳定地定位目标的方法。本文提出了一种联合多模态追踪框架,通过提示调制模块和统一目标解码模块实现了时间视觉模板和语言表达之间的补充性,并直接在搜索图像上执行整合的查询,以一步预测目标位置。对 TNL2K、OTB-Lang、LaSOT 和 RefCOCOg 进行了大量实验证明了我们所提出方法的有效性,在追踪和地面连接方面与现有方法具有竞争性能。