Jul, 2022

更多关注视觉语言跟踪

TL;DR本文介绍一种基于 ConvNets 和多模态视觉语言 (VL) 的追踪方法,通过模态混合器(ModaMixer)和不对称的 ConvNet 搜索,学习新颖的统一自适应 VL 表示,仅使用 ConvNets 能够在 SOTA 追踪中表现出色,甚至超过几个基于 Transformer 的 SOTA 追踪器。