Jul, 2023

一体化探索:多模态对齐下的统一视觉语言跟踪

TL;DR现有主流的视觉语言(VL)跟踪框架由三部分组成,即视觉特征提取器,语言特征提取器和融合模型。本文提出了一个全新的、一体化的框架,通过采用统一的 Transformer 骨干结构,学习联合特征提取和交互,实现了特征的统一融合,消除了特征集成和融合模块的需求,从而在视觉语言跟踪方面获得了更有效和高效的结果。