BriefGPT.xyz
Ask
alpha
关键词
unified transformer backbone
搜索结果 - 1
一体化探索:多模态对齐下的统一视觉语言跟踪
现有主流的视觉语言(VL)跟踪框架由三部分组成,即视觉特征提取器,语言特征提取器和融合模型。本文提出了一个全新的、一体化的框架,通过采用统一的 Transformer 骨干结构,学习联合特征提取和交互,实现了特征的统一融合,消除了特征集成和
→
PDF
a year ago
Prev
Next